版本 0.15#

版本 0.15.2#

2014 年 9 月 4 日

錯誤修正#

版本 0.15.1#

2014 年 8 月 1 日

錯誤修正#

  • 使 cross_validation.cross_val_score 在多輸出分類問題上使用 cross_validation.KFold 而不是 cross_validation.StratifiedKFold。由 Nikolay Mayorov 提供。

  • 支援看不見的標籤 preprocessing.LabelBinarizer,以還原 0.14.1 的預設行為,以實現向後相容性。由 Hamzeh Alsalhi 提供。

  • 修正了 cluster.KMeans 的停止條件,該條件阻止了提前收斂偵測。由 Edward Raff 和 Gael Varoquaux 提供。

  • 修正了 multiclass.OneVsOneClassifier 的行為。在每個類別投票層級出現平手的情況下,計算正確的每個類別預測分數總和。由 Andreas Müller 提供。

  • 使 cross_validation.cross_val_scoregrid_search.GridSearchCV 接受 Python 清單作為輸入資料。這對於文字處理管道的交叉驗證和模型選擇特別有用。由 Andreas Müller 提供。

  • 修正了大多數估計器的資料輸入檢查,以接受實作 NumPy __array__ 協定的輸入資料。這是最近版本的 pandas 中 pandas.Seriespandas.DataFrame 的情況。由 Gael Varoquaux 提供。

  • 修正了使用 class_weight="auto" 在具有非連續標籤的資料上的 linear_model.SGDClassifier 的迴歸問題。由 Olivier Grisel 提供。

版本 0.15#

2014 年 7 月 15 日

重點#

  • 程式碼各處的許多速度和記憶體改進

  • 隨機森林(和額外樹)的速度和記憶體大幅提升,這也有利於更好地進行平行運算。

  • BernoulliRBM 進行增量擬合

  • 新增了 cluster.AgglomerativeClustering,用於使用平均連鎖、完全連鎖和 Ward 策略進行階層凝聚式分群。

  • 新增了 linear_model.RANSACRegressor,用於穩健迴歸模型。

  • 新增了使用 manifold.TSNE 進行降維,可用於視覺化高維資料。

變更日誌#

新功能#

增強功能#

文件改進#

  • 「使用文字資料」教學現在已整合到主要文件的教學章節中。包括練習和教學演示的骨架。原始教學由數個作者建立,包括 Olivier Grisel、Lars Buitinck 和其他許多人。教學整合到 scikit-learn 文件中由 Jaques Grobler 完成。

  • 新增 計算效能 文件。討論和預測延遲/吞吐量的範例,以及影響速度的不同因素。額外提供建立更快模型和在速度與預測能力之間選擇相關折衷方案的提示。由 Eustache Diemert 提供。

錯誤修正#

  • 修正 decomposition.MiniBatchDictionaryLearning 中的錯誤:partial_fit 無法正常運作。

  • 修正 linear_model.stochastic_gradient 中的錯誤:l1_ratio 被用作 (1.0 - l1_ratio)

  • 修正使用字串標籤的 multiclass.OneVsOneClassifier 中的錯誤

  • 修正 LassoCVElasticNetCV 中的錯誤:它們不會預先計算 precompute=Trueprecompute="auto" 以及 n_samples > n_features 的 Gram 矩陣。由 Manoj Kumar 提供。

  • 修正當變數未置中時,feature_selection.f_regression 中自由度的不正確估計。由 Virgile Fritsch 提供。

  • 修正當 pre_dispatch != "all" 時(例如在 cross_val_score 中)並行處理中的競爭條件。由 Olivier Grisel 提供。

  • 當未提供任何樣本時,在 cluster.FeatureAgglomerationcluster.WardAgglomeration 中引發錯誤,而不是返回無意義的群集。

  • 修正 loss='huber'gradient_boosting.GradientBoostingRegressor 中的錯誤:gamma 可能未初始化。

  • 修正當使用 sample_weight != None 和/或 bootstrap=True 進行擬合時,使用隨機樹森林計算的特徵重要性。由 Gilles Louppe 提供。

API 變更摘要#

  • sklearn.hmm 已被棄用。計劃在 0.17 版本中移除。

  • 在棄用後,已移除對 covariance.EllipticEnvelop 的使用。請改用 covariance.EllipticEnvelope

  • cluster.Ward 已被棄用。請改用 cluster.AgglomerativeClustering

  • cluster.WardClustering 已被棄用。請改用

  • cluster.AgglomerativeClustering

  • cross_validation.Bootstrap 已被棄用。建議改用 cross_validation.KFoldcross_validation.ShuffleSplit

  • 對序列的序列(或列表的列表)多標籤格式的直接支援已棄用。若要轉換為和轉換自支援的二元指標矩陣格式,請使用 preprocessing.MultiLabelBinarizer。由 Joel Nothman 提供。

  • 在機率 PCA 模型之後,將評分方法新增至 decomposition.PCA,並棄用 ProbabilisticPCA 模型,因為其評分實作不正確。此計算現在也利用矩陣反轉引理來加快計算速度。由 Alexandre Gramfort 提供。

  • decomposition.FactorAnalysis 的評分方法現在返回樣本的平均對數概似值。使用 score_samples 來取得每個樣本的對數概似值。由 Alexandre Gramfort 提供。

  • 從交叉驗證產生器產生布林遮罩(設定 indices=False)已棄用。將在 0.17 中移除對遮罩的支援。自 0.10 起,產生器預設會產生索引陣列。由 Joel Nothman 提供。

  • 包含 dtype=object 的字串的一維陣列(如在 Pandas 中使用的)現在被視為有效的分類目標。這修正了某些分類器中 0.13 版本的迴歸。由 Joel Nothman 提供。

  • 修正 RandomizedPCA 中錯誤的 explained_variance_ratio_ 屬性。由 Alexandre Gramfort 提供。

  • linear_model.ElasticNetCVlinear_model.LassoCV 中,針對每個 l1_ratio 擬合 alpha 值,而不是使用 mean_l1_ratio。如果提供的 l1_ratio 是一維陣列類型的物件且長度大於 1,這會將 alphas_ 的形狀從 (n_alphas,) 更改為 (n_l1_ratio, n_alphas)。由 Manoj Kumar 提供。

  • 修正當擬合截距且輸入資料為稀疏時,linear_model.ElasticNetCVlinear_model.LassoCV 的問題。自動的 alpha 網格計算不正確,且使用正規化 (normalize) 的縮放比例也錯誤。由 Manoj Kumar 提供。

  • 修正決策樹、隨機森林和梯度樹提升在每次分割時繪製的最大特徵數 (max_features) 錯誤的問題。先前,繪製特徵數量的計數僅在分割中存在一個非恆定的特徵後才開始。此錯誤修復將影響這些演算法在存在恆定特徵時的計算效能和泛化效能。若要恢復先前的泛化效能,您應修改 max_features 的值。由 Arnaud Joly 提供。

  • 修正 ensemble.ExtraTreesClassifierensemble.ExtraTreesRegressor 在每次分割時繪製的最大特徵數 (max_features) 錯誤的問題。先前,只有分割中非恆定的特徵才被計為已繪製。現在,恆定的特徵也被計為已繪製。此外,至少需要有一個非恆定的特徵才能進行有效的分割。此錯誤修復將影響額外樹 (extra trees) 在存在恆定特徵時的計算效能和泛化效能。若要恢復先前的泛化效能,您應修改 max_features 的值。由 Arnaud Joly 提供。

  • 修正當 class_weight=="auto" 時,utils.class_weight.compute_class_weight 的問題。先前,對於非整數 dtype 的輸入,它會發生錯誤,且回傳的加權陣列是錯誤的。由 Manoj Kumar 提供。

  • 修正 cross_validation.Bootstrap,當 n_train + n_test > n 時,會回傳 ValueError。由 Ronald Phlypo 提供。

人員#

依提交次數排序的 0.15 版本貢獻者列表。

  • 312 Olivier Grisel

  • 275 Lars Buitinck

  • 221 Gael Varoquaux

  • 148 Arnaud Joly

  • 134 Johannes Schönberger

  • 119 Gilles Louppe

  • 113 Joel Nothman

  • 111 Alexandre Gramfort

  • 95 Jaques Grobler

  • 89 Denis Engemann

  • 83 Peter Prettenhofer

  • 83 Alexander Fabisch

  • 62 Mathieu Blondel

  • 60 Eustache Diemert

  • 60 Nelle Varoquaux

  • 49 Michael Bommarito

  • 45 Manoj-Kumar-S

  • 28 Kyle Kastner

  • 26 Andreas Mueller

  • 22 Noel Dawe

  • 21 Maheshakya Wijewardena

  • 21 Brooke Osborn

  • 21 Hamzeh Alsalhi

  • 21 Jake VanderPlas

  • 21 Philippe Gervais

  • 19 Bala Subrahmanyam Varanasi

  • 12 Ronald Phlypo

  • 10 Mikhail Korobov

  • 8 Thomas Unterthiner

  • 8 Jeffrey Blackburne

  • 8 eltermann

  • 8 bwignall

  • 7 Ankit Agrawal

  • 7 CJ Carey

  • 6 Daniel Nouri

  • 6 Chen Liu

  • 6 Michael Eickenberg

  • 6 ugurthemaster

  • 5 Aaron Schumacher

  • 5 Baptiste Lagarde

  • 5 Rajat Khanduja

  • 5 Robert McGibbon

  • 5 Sergio Pascual

  • 4 Alexis Metaireau

  • 4 Ignacio Rossi

  • 4 Virgile Fritsch

  • 4 Sebastian Säger

  • 4 Ilambharathi Kanniah

  • 4 sdenton4

  • 4 Robert Layton

  • 4 Alyssa

  • 4 Amos Waterland

  • 3 Andrew Tulloch

  • 3 murad

  • 3 Steven Maude

  • 3 Karol Pysniak

  • 3 Jacques Kvam

  • 3 cgohlke

  • 3 cjlin

  • 3 Michael Becker

  • 3 hamzeh

  • 3 Eric Jacobsen

  • 3 john collins

  • 3 kaushik94

  • 3 Erwin Marsi

  • 2 csytracy

  • 2 LK

  • 2 Vlad Niculae

  • 2 Laurent Direr

  • 2 Erik Shilts

  • 2 Raul Garreta

  • 2 Yoshiki Vázquez Baeza

  • 2 Yung Siang Liau

  • 2 abhishek thakur

  • 2 James Yu

  • 2 Rohit Sivaprasad

  • 2 Roland Szabo

  • 2 amormachine

  • 2 Alexis Mignon

  • 2 Oscar Carlsson

  • 2 Nantas Nardelli

  • 2 jess010

  • 2 kowalski87

  • 2 Andrew Clegg

  • 2 Federico Vaggi

  • 2 Simon Frid

  • 2 Félix-Antoine Fortin

  • 1 Ralf Gommers

  • 1 t-aft

  • 1 Ronan Amicel

  • 1 Rupesh Kumar Srivastava

  • 1 Ryan Wang

  • 1 Samuel Charron

  • 1 Samuel St-Jean

  • 1 Fabian Pedregosa

  • 1 Skipper Seabold

  • 1 Stefan Walk

  • 1 Stefan van der Walt

  • 1 Stephan Hoyer

  • 1 Allen Riddell

  • 1 Valentin Haenel

  • 1 Vijay Ramesh

  • 1 Will Myers

  • 1 Yaroslav Halchenko

  • 1 Yoni Ben-Meshulam

  • 1 Yury V. Zaytsev

  • 1 adrinjalali

  • 1 ai8rahim

  • 1 alemagnani

  • 1 alex

  • 1 benjamin wilson

  • 1 chalmerlowe

  • 1 dzikie drożdże

  • 1 jamestwebber

  • 1 matrixorz

  • 1 popo

  • 1 samuela

  • 1 François Boulogne

  • 1 Alexander Measure

  • 1 Ethan White

  • 1 Guilherme Trein

  • 1 Hendrik Heuer

  • 1 IvicaJovic

  • 1 Jan Hendrik Metzen

  • 1 Jean Michel Rouly

  • 1 Eduardo Ariño de la Rubia

  • 1 Jelle Zijlstra

  • 1 Eddy L O Jansson

  • 1 Denis

  • 1 John

  • 1 John Schmidt

  • 1 Jorge Cañardo Alastuey

  • 1 Joseph Perla

  • 1 Joshua Vredevoogd

  • 1 José Ricardo

  • 1 Julien Miotte

  • 1 Kemal Eren

  • 1 Kenta Sato

  • 1 David Cournapeau

  • 1 Kyle Kelley

  • 1 Daniele Medri

  • 1 Laurent Luce

  • 1 Laurent Pierron

  • 1 Luis Pedro Coelho

  • 1 DanielWeitzenfeld

  • 1 Craig Thompson

  • 1 Chyi-Kwei Yau

  • 1 Matthew Brett

  • 1 Matthias Feurer

  • 1 Max Linke

  • 1 Chris Filo Gorgolewski

  • 1 Charles Earl

  • 1 Michael Hanke

  • 1 Michele Orrù

  • 1 Bryan Lunt

  • 1 Brian Kearns

  • 1 Paul Butler

  • 1 Paweł Mandera

  • 1 Peter

  • 1 Andrew Ash

  • 1 Pietro Zambelli

  • 1 staubda