版本 0.13#

版本 0.13.1#

2013 年 2 月 23 日

0.13.1 版本僅修正了一些錯誤，沒有新增任何新功能。

更新日誌#

修正了由 Yaroslav Halchenko 導致的測試錯誤，該錯誤是由於函數 cross_validation.train_test_split 被解讀為測試。
修正了 cluster.MiniBatchKMeans 中由 Gael Varoquaux 造成的小集群重新分配中的錯誤。
修正了 decomposition.KernelPCA 中 gamma 的預設值，由 Lars Buitinck 修正。
將 joblib 更新為 0.7.0d，由 Gael Varoquaux 更新。
修正了 ensemble.GradientBoostingClassifier 中偏差的縮放，由 Peter Prettenhofer 修正。
改善了 multiclass.OneVsOneClassifier 中的平手打破，由 Andreas Müller 修正。
其他對測試和文件的微小改進。

貢獻者#

依提交次數排列的 0.13.1 版本貢獻者列表。

16 Lars Buitinck
12 Andreas Müller
8 Gael Varoquaux
5 Robert Marchman
3 Peter Prettenhofer
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Gilles Louppe
1 Mathieu Blondel
1 Nelle Varoquaux
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
1 Vlad Niculae
1 Yaroslav Halchenko

版本 0.13#

2013 年 1 月 21 日

新的估算器類別#

dummy.DummyClassifier 和 dummy.DummyRegressor，兩個獨立於資料的預測器，由 Mathieu Blondel 提供。適用於檢查估算器的合理性。請參閱使用者指南中的虛擬估算器。多輸出支援由 Arnaud Joly 新增。
decomposition.FactorAnalysis，一個實作經典因素分析的轉換器，由 Christian Osendorfer 和 Alexandre Gramfort 提供。請參閱使用者指南中的因素分析。
feature_extraction.FeatureHasher，一個實作「雜湊技巧」的轉換器，用於從字串欄位快速、低記憶體地提取特徵，由 Lars Buitinck 提供；以及用於文字文件的 feature_extraction.text.HashingVectorizer，由 Olivier Grisel 提供。請參閱特徵雜湊和使用雜湊技巧將大型文字語料庫向量化，以取得文件和範例用法。
pipeline.FeatureUnion，一個將其他數個轉換器的結果串連起來的轉換器，由 Andreas Müller 提供。請參閱使用者指南中的 FeatureUnion：複合特徵空間。
random_projection.GaussianRandomProjection、random_projection.SparseRandomProjection 和函數 random_projection.johnson_lindenstrauss_min_dim。前兩個是由 Olivier Grisel 和 Arnaud Joly 提供的轉換器，實作高斯和稀疏隨機投影矩陣。請參閱使用者指南中的隨機投影。
kernel_approximation.Nystroem，一個用於近似任意核的轉換器，由 Andreas Müller 提供。請參閱使用者指南中的用於核近似的 Nystroem 方法。
preprocessing.OneHotEncoder，一個計算類別特徵的二元編碼的轉換器，由 Andreas Müller 提供。請參閱使用者指南中的編碼類別特徵。
linear_model.PassiveAggressiveClassifier 和 linear_model.PassiveAggressiveRegressor，由 Rob Zinkov 和 Mathieu Blondel 提供的預測器，用於實作線性模型的有效隨機最佳化。請參閱使用者指南中的被動積極演算法。
ensemble.RandomTreesEmbedding，一個使用完全隨機樹的集合建立高維稀疏表示的轉換器，由 Andreas Müller 提供。請參閱使用者指南中的完全隨機樹嵌入。
manifold.SpectralEmbedding 和函數 manifold.spectral_embedding，實作用於非線性降維的「拉普拉斯本徵映射」轉換，由 Wei Li 提供。請參閱使用者指南中的光譜嵌入。
isotonic.IsotonicRegression，由 Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 提供。

更新日誌#

metrics.zero_one_loss（先前為 metrics.zero_one）現在具有正規化輸出的選項，該選項會回報錯誤分類的分數，而不是錯誤分類的原始數字。由 Kyle Beauchamp 提供。
tree.DecisionTreeClassifier 以及所有衍生集成模型現在都支援樣本權重，由 Noel Dawe 和 Gilles Louppe 貢獻。
在隨機樹森林中使用 bootstrap 樣本時的速度提升，由 Peter Prettenhofer 和 Gilles Louppe 貢獻。
針對梯度提升樹的部分依賴圖，位於 ensemble.partial_dependence.partial_dependence 中，由 Peter Prettenhofer 貢獻。請參閱部分依賴和個別條件期望圖以取得範例。
網站上的目錄現在可以展開，由 Jaques Grobler 貢獻。
feature_selection.SelectPercentile 現在會以決定性的方式處理平手情況，而不是回傳所有排名相同的特徵。
feature_selection.SelectKBest 和 feature_selection.SelectPercentile 在數值上更穩定，因為它們使用分數（而非 p 值）來排名結果。這表示它們有時可能會選擇與先前不同的特徵。
使用 sparse_cg 求解器的嶺迴歸和嶺分類擬合不再具有平方級的記憶體複雜度，由 Lars Buitinck 和 Fabian Pedregosa 貢獻。
嶺迴歸和嶺分類現在支援一個名為 lsqr 的新快速求解器，由 Mathieu Blondel 貢獻。
metrics.precision_recall_curve 的速度提升，由 Conrad Lee 貢獻。
在 datasets.dump_svmlight_file 和 datasets.load_svmlight_file 中新增了對讀取/寫入具有成對偏好屬性（svmlight 檔案格式中的 qid）的 svmlight 檔案的支援，由 Fabian Pedregosa 貢獻。
更快且更穩健的 metrics.confusion_matrix 和集群效能評估，由 Wei Li 貢獻。
cross_validation.cross_val_score 現在可以使用預先計算的核函數和親和性矩陣，由 Andreas Müller 貢獻。
LARS 演算法透過啟發式方法捨棄過於相關的迴歸器，並在數值雜訊變得主要時停止路徑，使其在數值上更穩定，由 Gael Varoquaux 貢獻。
metrics.precision_recall_curve 的更快實作，由 Conrad Lee 貢獻。
新的核函數 metrics.chi2_kernel，由 Andreas Müller 貢獻，常用於電腦視覺應用中。
naive_bayes.BernoulliNB 中長期存在的錯誤已由 Shaun Jackman 修復。
在 multiclass.OneVsRestClassifier 中實作了 predict_proba，由 Andrew Winterman 貢獻。
改善梯度提升的一致性：估計器 ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 使用估計器 tree.DecisionTreeRegressor，而不是 tree._tree.Tree 資料結構，由 Arnaud Joly 貢獻。
修復了決策樹模組中的浮點數例外，由 Seberg 貢獻。
修復了當 y_true 只有一個類別時 metrics.roc_curve 失敗的問題，由 Wei Li 貢獻。
新增了計算平均絕對誤差的 metrics.mean_absolute_error 函數。 metrics.mean_squared_error、metrics.mean_absolute_error 和 metrics.r2_score 指標都支援多輸出，由 Arnaud Joly 貢獻。
修復了 svm.LinearSVC 和 linear_model.LogisticRegression 中的 class_weight 支援，由 Andreas Müller 貢獻。 class_weight 的含義被顛倒了，因為在較早的版本中，較高的權重意味著給定類別的陽性樣本較少。
改善 sklearn.metrics 中迴歸和分類指標的敘述性文件和一致性，由 Arnaud Joly 貢獻。
修復了當使用具有未排序索引的 csr 矩陣時，sklearn.svm.SVC 中的一個錯誤，由 Xinfan Meng 和 Andreas Müller 貢獻。
cluster.MiniBatchKMeans：新增了對附加的觀察值很少的集群中心進行隨機重新分配的功能，由 Gael Varoquaux 貢獻。

API 變更摘要#

為了保持一致性，將所有出現的 n_atoms 都重新命名為 n_components。這適用於 decomposition.DictionaryLearning、decomposition.MiniBatchDictionaryLearning、decomposition.dict_learning、decomposition.dict_learning_online。
為了保持一致性，將所有出現的 max_iters 都重新命名為 max_iter。這適用於 semi_supervised.LabelPropagation 和 semi_supervised.label_propagation.LabelSpreading。
為了保持一致性，將 ensemble.BaseGradientBoosting 和 ensemble.GradientBoostingRegressor 中所有出現的 learn_rate 都重新命名為 learning_rate。
sklearn.linear_model.sparse 模組已移除。稀疏矩陣支援已整合到「常規」線性模型中。
已移除不正確地回傳累積誤差的 sklearn.metrics.mean_square_error。請改用 metrics.mean_squared_error。
不再支援將 class_weight 參數傳遞給 fit 方法。請改為將它們傳遞給估算器建構函式。
GMMs 不再有 decode 和 rvs 方法。請改用 score、predict 或 sample 方法。
Ridge 迴歸和分類中的 solver fit 選項現在已被棄用，並將在 v0.14 中移除。請改用建構函式選項。
feature_extraction.text.DictVectorizer 現在會回傳 CSR 格式的稀疏矩陣，而非 COO 格式。
將 cross_validation.KFold 和 cross_validation.StratifiedKFold 中的 k 重新命名為 n_folds，並將 cross_validation.Bootstrap 中的 n_bootstraps 重新命名為 n_iter。
為了保持一致性，將所有出現的 n_iterations 重新命名為 n_iter。這適用於 cross_validation.ShuffleSplit、cross_validation.StratifiedShuffleSplit、utils.extmath.randomized_range_finder 和 utils.extmath.randomized_svd。
將 linear_model.ElasticNet 和 linear_model.SGDClassifier 中的 rho 取代為 l1_ratio。rho 參數有不同的含義；引入 l1_ratio 是為了避免混淆。它的含義與先前在 linear_model.ElasticNet 中的 rho 和在 linear_model.SGDClassifier 中的 (1-rho) 相同。
linear_model.LassoLars 和 linear_model.Lars 現在在多個目標的情況下儲存路徑列表，而不是路徑陣列。
hmm.GMMHMM 的屬性 gmm 已重新命名為 gmm_，以更嚴格地遵循 API。
cluster.spectral_embedding 已移動到 manifold.spectral_embedding。
將 manifold.spectral_embedding 和 cluster.SpectralClustering 中的 eig_tol 重新命名為 eigen_tol，並將 mode 重新命名為 eigen_solver。
將 manifold.spectral_embedding 和 cluster.SpectralClustering 中的 mode 重新命名為 eigen_solver。
對於單一輸出問題，tree.DecisionTreeClassifier 和所有衍生集成模型的 classes_ 和 n_classes_ 屬性現在是平面的，而對於多輸出問題則是巢狀的。
ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 的 estimators_ 屬性現在是 tree.DecisionTreeRegressor 的陣列。
為了保持一致性，將 decomposition.MiniBatchDictionaryLearning 和 decomposition.MiniBatchSparsePCA 中的 chunk_size 重新命名為 batch_size。
svm.SVC 和 svm.NuSVC 現在提供 classes_ 屬性，並支援標籤 y 的任意 dtype。此外，predict 回傳的 dtype 現在反映了 fit 期間 y 的 dtype (以前是 np.float)。
將 cross_validation.train_test_split 中的預設 test_size 變更為 None，並在 cross_validation.ShuffleSplit 和 cross_validation.StratifiedShuffleSplit 中新增了從 train_size 推斷 test_size 的可能性。
將函式 sklearn.metrics.zero_one 重新命名為 sklearn.metrics.zero_one_loss。請注意，sklearn.metrics.zero_one_loss 中的預設行為與 sklearn.metrics.zero_one 不同：normalize=False 已變更為 normalize=True。
將函式 metrics.zero_one_score 重新命名為 metrics.accuracy_score。
datasets.make_circles 現在具有相同數量的內部點和外部點。
在 Naive Bayes 分類器中，class_prior 參數已從 fit 移動到 __init__。

貢獻者#

按提交次數排列的 0.13 版本貢獻者列表。

364 Andreas Müller
143 Arnaud Joly
137 Peter Prettenhofer
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
54 Gilles Louppe
40 Jaques Grobler
38 Alexandre Gramfort
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Fabian Pedregosa
17 Nelle Varoquaux
16 Christian Osendorfer
14 Daniel Nouri
13 Virgile Fritsch
13 syhw
12 Satrajit Ghosh
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
8 James Bergstra
7 Tadej Janež
6 Brian Cajes
6 Jake Vanderplas
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
4 Robert Layton
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Alexandre Passos
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006