誰在使用 scikit-learn?#

摩根大通 (J.P.Morgan)#

Scikit-learn 是摩根大通 Python 機器學習工具包中不可或缺的一部分。它在銀行的所有部門中被廣泛用於分類、預測分析以及許多其他機器學習任務。其簡單明瞭的 API、廣泛的演算法以及高品質的文件,使得 scikit-learn 既容易上手又非常強大。

Stephen Simmons,摩根大通 Athena 研究副總裁

Spotify#

Scikit-learn 提供了一個工具箱,其中包含大量最先進模型的可靠實現,並使其易於插入到現有應用程式中。我們在 Spotify 已經大量使用它來進行音樂推薦,而且我認為這是目前我所見過設計最完善的 ML 套件。

Erik Bernhardsson,Spotify 音樂探索與機器學習工程經理

法國國家資訊與自動化研究所 (Inria)#

在 INRIA,我們使用 scikit-learn 來支援許多團隊的前沿基礎研究:Parietal 用於神經影像,Lear 用於電腦視覺,Visages 用於醫學影像分析,Privatics 用於安全。該專案是一個出色的工具,可以在學術環境中解決機器學習的困難應用,因為它具有高效能和多功能性,而且易於使用且文件完善,這使其非常適合研究生。

Gaël Varoquaux,Parietal 研究員

betaworks#

Betaworks 是一家位於紐約市的新創工作室,致力於建立新產品、發展公司並投資其他公司。在過去 8 年中,我們推出了許多基於社群資料分析的服務,例如 Bitly、Chartbeat、digg 和 Scale Model。betaworks 資料科學團隊一直將 Scikit-learn 用於各種任務。從探索性分析到產品開發,它是我們工具包中不可或缺的一部分。最近的應用包括在 digg 的新影片推薦系統和 Poncho 的 動態啟發式子空間叢集中使用。

Gilad Lotan,首席資料科學家

Hugging Face#

在 Hugging Face,我們使用 NLP 和機率模型來產生可以輕鬆交談的對話式人工智慧。儘管在我們的 一些 NLP 任務中使用深度神經網路,但 scikit-learn 仍然是我們日常機器學習工作的基礎。其介面的易用性和可預測性,以及在您需要時提供的簡單數學解釋,是其殺手級功能。我們在生產環境中使用各種 scikit-learn 模型,而且它們在操作上也令人愉快。

Julien Chaumond,首席技術長

Evernote#

建立分類器通常是一個迭代的過程,包括探索資料、選擇特徵(被認為在某種程度上有預測能力的資料屬性)、訓練模型,最後評估它們。對於許多這些任務,我們依賴於出色的 Python 套件 scikit-learn。

閱讀更多

Mark Ayzenshtat,擴增智慧副總裁

巴黎電信學院 (Télécom ParisTech)#

在巴黎電信學院,scikit-learn 用於入門和進階機器學習課程的實作課程和家庭作業。課程對象包括大學部學生和碩士生。scikit-learn 的最大優點是其快速的學習曲線,讓學生可以快速開始處理有趣且有動機的問題。

Alexandre Gramfort,助理教授

Booking.com#

在 Booking.com,我們將機器學習演算法用於許多不同的應用,例如向客戶推薦飯店和目的地、偵測詐欺性預訂或排程我們的客戶服務人員。Scikit-learn 是我們在為預測任務實作標準演算法時使用的工具之一。其 API 和文件非常出色且易於使用。scikit-learn 開發人員在將最先進的實作和新演算法納入套件方面做得很好。因此,scikit-learn 提供了對廣泛演算法的便利存取,並讓我們能夠輕鬆找到適合工作的工具。

Melanie Mueller,資料科學家

AWeber#

scikit-learn 工具組對於 AWeber 的資料分析和管理團隊來說是不可或缺的。它讓我們能夠完成如果沒有時間或資源就無法完成的 AWesome 工作。文件非常出色,讓新工程師可以快速評估並將許多不同的演算法應用於我們的資料。當處理 AWeber 的大量電子郵件內容時,文字特徵擷取工具非常有用。RandomizedPCA 實作與 Pipelining 和 FeatureUnions 一起,讓我們能夠有效且可靠地開發複雜的機器學習演算法。

任何有興趣了解更多關於 AWeber 如何在生產環境中部署 scikit-learn 的人,都應該查看 AWeber 的 Michael Becker 在 PyData Boston 的演講,網址為 mdbecker/pydata_2013

Michael Becker,軟體工程師,資料分析和管理忍者

Yhat#

一致的 API、詳盡的文件和頂級實作的結合,使 scikit-learn 成為我們在 Python 中最喜歡的機器學習套件。scikit-learn 使任何人都可以使用 Python 進行進階分析。在 Yhat,我們可以輕鬆地將這些模型整合到您的生產應用程式中。因此,消除了生產分析工作時遇到的不必要開發時間。

Greg Lamp,共同創辦人

Rangespan#

Python scikit-learn 工具組是 Rangespan 資料科學團隊的核心工具。其大量的、文件完善的模型和演算法,讓我們的資料科學家團隊可以快速建立原型,並快速迭代以找到我們學習問題的正確解決方案。我們發現,scikit-learn 不僅是建立原型的正確工具,而且其謹慎且經過良好測試的實作,讓我們有信心在生產環境中執行 scikit-learn 模型。

Jurgen Van Gael,資料科學總監

Birchbox#

在 Birchbox,我們面臨著一系列電子商務典型的機器學習問題:產品推薦、使用者分群、庫存預測、趨勢偵測等。Scikit-learn 讓我們可以嘗試許多模型,尤其是在新專案的探索階段:資料可以以一致的方式傳遞;模型易於儲存和重複使用;更新讓我們隨時了解模式探索研究社群的新發展。Scikit-learn 是我們團隊的重要工具,以正確的方式用正確的語言建構。

Thierry Bertin-Mahieux,資料科學家

Bestofmedia Group#

Scikit-learn 是我們在 Bestofmedia 進行所有機器學習的第一工具組。由於它包含各種最先進的演算法實作,我們將其用於各種任務(例如,垃圾郵件防治、廣告點擊預測、各種排名模型)。在實驗室中,它可以加速複雜管線的原型設計。在生產中,我可以說它已被證明足夠穩健和高效,可以部署於業務關鍵元件。

Eustache Diemert,首席科學家

Change.org#

在 change.org,我們在生產系統中自動使用 scikit-learn 的 RandomForestClassifier 來驅動電子郵件鎖定,每週觸及全球數百萬使用者。在實驗室中,scikit-learn 的易用性、效能以及實作的演算法多樣性,已被證明對於為我們的機器學習需求提供單一可靠的來源非常有價值。

Vijay Ramesh,Change.org 資料/科學軟體工程師

PHIMECA Engineering#

在 PHIMECA Engineering,我們使用 scikit-learn 估算器作為難以評估的數值模型的替代品(主要是但不完全是有限元素力學模型),以加快我們基於模擬的決策框架中涉及的密集後處理操作。scikit-learn 的 fit/predict API 與其高效的交叉驗證工具,大大簡化了選擇最佳擬合估算器的任務。我們也使用 scikit-learn 來闡述我們訓練課程中的概念。儘管機器學習的理論複雜性看似很高,但學員始終對 scikit-learn 的易用性印象深刻。

Vincent Dubourg,PHIMECA Engineering,工程博士

HowAboutWe#

在 HowAboutWe,儘管團隊規模不大,但 scikit-learn 讓我們可以在分析和生產環境中實作各種機器學習技術。我們使用 scikit-learn 的分類演算法來預測使用者行為,使我們能夠(例如)在潛在客戶在我們網站上剛開始使用時,就估計來自特定流量來源的潛在客戶價值。此外,我們使用者的個人資料主要由非結構化資料(開放式問題的答案)組成,因此我們使用 scikit-learn 的特徵擷取和降維工具,將這些非結構化資料轉換為我們配對系統的輸入。

Daniel Weitzenfeld,HowAboutWe 資深資料科學家

PeerIndex#

在 PeerIndex,我們運用科學方法來建立影響力圖(Influence Graph)—— 一個獨特的數據集,讓我們能夠識別出誰真正具有影響力,以及在何種情境下。為了做到這一點,我們必須處理各種機器學習和預測建模問題。Scikit-learn 已成為我們開發原型和快速取得進展的主要工具。從預測遺失的數據、分類推文,到聚類社群媒體使用者群體,scikit-learn 在各種應用中都證明了其用處。它非常直觀的介面以及與其他 Python 工具的出色相容性,使其成為我們日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex 資深數據科學家

DataRobot#

DataRobot 正在建構下一代預測分析軟體,以提高數據科學家的生產力,而 scikit-learn 是我們系統中不可或缺的一部分。scikit-learn 提供的各種機器學習技術,結合穩健的實作,使其成為 Python 中機器學習的一站式資源庫。此外,其一致的 API、經過良好測試的程式碼以及寬鬆的授權,讓我們能夠在生產環境中使用它。Scikit-learn 實際上為我們省下了數年才能將產品推向市場的工作量。

Jeremy Achin,DataRobot Inc. 執行長兼共同創辦人

OkCupid#

我們在 OkCupid 使用 scikit-learn 來評估和改進我們的配對系統。它擁有的功能範圍,特別是預處理工具,意味著我們可以將它用於各種專案,並且它的效能足以處理我們需要篩選的龐大數據量。此外,文件說明非常詳盡,這使得這個函式庫非常容易使用。

David Koh - OkCupid 資深數據科學家

Lovely#

在 Lovely,我們致力於提供最好的公寓租賃市場,尊重我們的用戶和房源資訊。從了解用戶行為、改進數據品質,到偵測詐欺,scikit-learn 是我們收集洞察、建立預測模型和改進產品的常用工具。易於閱讀的文件說明和直觀的 API 架構,使得機器學習對於廣泛的 Python 開發人員來說既可探索又易於存取。我一直在推薦更多的開發人員和科學家嘗試使用 scikit-learn。

Simon Frid - Lovely 數據科學家主管

Data Publica#

Data Publica 正在為商業和行銷團隊建構一個名為 C-Radar 的新預測銷售工具。我們廣泛使用 scikit-learn,透過集群分析來建立客戶區隔,並根據過去合作夥伴的成功或失敗來預測未來的客戶。我們還透過 scikit-learn 及其機器學習演算法實作,根據公司的網站溝通內容來對公司進行分類。最終,機器學習使得偵測傳統工具無法看到的微弱訊號成為可能。由於 scikit-learn 框架的出色品質,所有這些複雜的任務都以簡單直接的方式執行。

Guillaume Lebourgeois & Samuel Charron - Data Publica 數據科學家

Machinalis#

Scikit-learn 是 Machinalis 所有機器學習專案的基石。它具有一致的 API、廣泛的演算法選擇,以及許多處理樣板程式碼的輔助工具。我們已在各種專案的生產環境中使用它,包括點擊率預測、資訊提取,甚至是數羊!

事實上,我們使用它的頻率如此之高,以至於我們開始將常見的使用案例凍結成 Python 套件,其中一些是開源的,例如 FeatureForge。一句話總結 scikit-learn:太棒了。

Rafael Carrascosa,首席開發人員

solido#

Scikit-learn 正在透過 Solido 協助推動摩爾定律。Solido 開發電腦輔助設計工具,供大多數前 20 大半導體公司和晶圓廠使用,以設計智慧型手機、汽車等內部最先進的晶片。Scikit-learn 有助於為 Solido 用於罕見事件估計、最差情況驗證、最佳化等的演算法提供動力。在 Solido,我們特別喜歡 scikit-learn 的高斯過程模型、大規模正規化線性迴歸和分類函式庫。Scikit-learn 提高了我們的生產力,因為對於許多機器學習問題,我們不再需要「自己編寫」程式碼。這個 PyData 2014 演講有詳細資訊。

Trent McConaghy,Solido Design Automation Inc. 創辦人

INFONEA#

我們在基於記憶體的商業智慧軟體 INFONEA® 中,採用 scikit-learn 進行快速原型開發和客製化的數據科學解決方案。作為一個有完整文件記錄、包含最先進演算法和管線方法的大型集合,scikit-learn 使我們能夠提供彈性且可擴展的科學分析解決方案。因此,scikit-learn 在實現數據科學技術與自助式商業分析的強大整合方面具有極高的價值。

Thorsten Kranz,Coma Soft AG 數據科學家

Dataiku#

我們的軟體 Data Science Studio (DSS) 使使用者能夠建立結合 ETL 和機器學習的數據服務。我們的機器學習模組整合了許多 scikit-learn 演算法。scikit-learn 函式庫與 DSS 的整合非常完美,因為它提供了幾乎適用於所有業務案例的演算法。我們的目標是提供一個透明且靈活的工具,使最佳化構建數據服務、準備數據以及在所有類型的數據上訓練機器學習演算法的耗時方面變得更加容易。

Florian Douetteau,Dataiku 執行長

Otto Group#

在 Otto Group,全球五大 B2C 線上零售商之一,我們在日常工作的各個方面都使用 scikit-learn,從數據探索到機器學習應用程式的開發,再到這些服務的生產部署。它幫助我們解決從電子商務到物流的各種機器學習問題。其一致的 API 使我們能夠圍繞它構建 Palladium REST-API 框架,並持續交付基於 scikit-learn 的服務。

Christian Rammig,Otto Group 數據科學主管

Zopa#

在 Zopa,首個點對點借貸平台,我們廣泛使用 scikit-learn 來營運業務並最佳化使用者的體驗。它為我們涉及信用風險、詐欺風險、行銷和定價的機器學習模型提供動力,並已用於發放至少 10 億英鎊的 Zopa 貸款。它有非常完善的文件記錄、功能強大且易於使用。我們對它提供的功能以及讓我們能夠實現讓金錢變得簡單和公平的使命感到非常感激。

Vlasios Vasileiou,Zopa 數據科學主管

MARS#

Scikit-Learn 是 Mars 機器學習生態系統不可或缺的一部分。無論我們是為寵物食品設計更好的配方,還是仔細分析我們的可可供應鏈,Scikit-Learn 都被用作快速開發想法並將其投入生產的工具。這使我們能夠更好地了解並滿足全球消費者的需求。Scikit-Learn 功能豐富的工具集易於使用,並為我們的同事提供解決他們每天面臨的業務挑戰所需的能力。

Michael Fitzke,Mars Inc. 次世代技術資深主管

BNP Paribas Cardif#

BNP Paribas Cardif 在其生產環境中的幾個機器學習模型中使用了 scikit-learn。我們的內部開發人員和數據科學家社群自 2015 年以來一直在使用 scikit-learn,原因有很多:開發品質、文件說明和貢獻治理,以及龐大的貢獻者社群。我們甚至在內部模型風險治理中明確提及使用 scikit-learn 的管道,作為我們減少營運風險和過擬合風險的良好實務之一。為了支持開源軟體開發,特別是 scikit-learn 專案,我們決定自 2018 年成立以來就參與在 La Fondation Inria 的 scikit-learn 聯盟。

Sébastien Conort,BNP Paribas Cardif 首席數據科學家