版本 0.13#
版本 0.13.1#
2013 年 2 月 23 日
0.13.1 版本僅修正了一些錯誤,沒有新增任何新功能。
更新日誌#
修正了由 Yaroslav Halchenko 導致的測試錯誤,該錯誤是由於函數
cross_validation.train_test_split
被解讀為測試。修正了
cluster.MiniBatchKMeans
中由 Gael Varoquaux 造成的小集群重新分配中的錯誤。修正了
decomposition.KernelPCA
中gamma
的預設值,由 Lars Buitinck 修正。將 joblib 更新為
0.7.0d
,由 Gael Varoquaux 更新。修正了
ensemble.GradientBoostingClassifier
中偏差的縮放,由 Peter Prettenhofer 修正。改善了
multiclass.OneVsOneClassifier
中的平手打破,由 Andreas Müller 修正。其他對測試和文件的微小改進。
貢獻者#
依提交次數排列的 0.13.1 版本貢獻者列表。
5 Robert Marchman
2 Hrishikesh Huilgolkar
1 Bastiaan van den Berg
1 Diego Molla
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
版本 0.13#
2013 年 1 月 21 日
新的估算器類別#
dummy.DummyClassifier
和dummy.DummyRegressor
,兩個獨立於資料的預測器,由 Mathieu Blondel 提供。適用於檢查估算器的合理性。請參閱使用者指南中的 虛擬估算器。多輸出支援由 Arnaud Joly 新增。decomposition.FactorAnalysis
,一個實作經典因素分析的轉換器,由 Christian Osendorfer 和 Alexandre Gramfort 提供。請參閱使用者指南中的 因素分析。feature_extraction.FeatureHasher
,一個實作「雜湊技巧」的轉換器,用於從字串欄位快速、低記憶體地提取特徵,由 Lars Buitinck 提供;以及用於文字文件的feature_extraction.text.HashingVectorizer
,由 Olivier Grisel 提供。請參閱 特徵雜湊 和 使用雜湊技巧將大型文字語料庫向量化,以取得文件和範例用法。pipeline.FeatureUnion
,一個將其他數個轉換器的結果串連起來的轉換器,由 Andreas Müller 提供。請參閱使用者指南中的 FeatureUnion:複合特徵空間。random_projection.GaussianRandomProjection
、random_projection.SparseRandomProjection
和函數random_projection.johnson_lindenstrauss_min_dim
。前兩個是由 Olivier Grisel 和 Arnaud Joly 提供的轉換器,實作高斯和稀疏隨機投影矩陣。請參閱使用者指南中的 隨機投影。kernel_approximation.Nystroem
,一個用於近似任意核的轉換器,由 Andreas Müller 提供。請參閱使用者指南中的 用於核近似的 Nystroem 方法。preprocessing.OneHotEncoder
,一個計算類別特徵的二元編碼的轉換器,由 Andreas Müller 提供。請參閱使用者指南中的 編碼類別特徵。linear_model.PassiveAggressiveClassifier
和linear_model.PassiveAggressiveRegressor
,由 Rob Zinkov 和 Mathieu Blondel 提供的預測器,用於實作線性模型的有效隨機最佳化。請參閱使用者指南中的 被動積極演算法。ensemble.RandomTreesEmbedding
,一個使用完全隨機樹的集合建立高維稀疏表示的轉換器,由 Andreas Müller 提供。請參閱使用者指南中的 完全隨機樹嵌入。manifold.SpectralEmbedding
和函數manifold.spectral_embedding
,實作用於非線性降維的「拉普拉斯本徵映射」轉換,由 Wei Li 提供。請參閱使用者指南中的 光譜嵌入。isotonic.IsotonicRegression
,由 Fabian Pedregosa、Alexandre Gramfort 和 Nelle Varoquaux 提供。
更新日誌#
metrics.zero_one_loss
(先前為metrics.zero_one
)現在具有正規化輸出的選項,該選項會回報錯誤分類的分數,而不是錯誤分類的原始數字。由 Kyle Beauchamp 提供。tree.DecisionTreeClassifier
以及所有衍生集成模型現在都支援樣本權重,由 Noel Dawe 和 Gilles Louppe 貢獻。在隨機樹森林中使用 bootstrap 樣本時的速度提升,由 Peter Prettenhofer 和 Gilles Louppe 貢獻。
針對 梯度提升樹 的部分依賴圖,位於
ensemble.partial_dependence.partial_dependence
中,由 Peter Prettenhofer 貢獻。請參閱 部分依賴和個別條件期望圖 以取得範例。網站上的目錄現在可以展開,由 Jaques Grobler 貢獻。
feature_selection.SelectPercentile
現在會以決定性的方式處理平手情況,而不是回傳所有排名相同的特徵。feature_selection.SelectKBest
和feature_selection.SelectPercentile
在數值上更穩定,因為它們使用分數(而非 p 值)來排名結果。這表示它們有時可能會選擇與先前不同的特徵。使用
sparse_cg
求解器的嶺迴歸和嶺分類擬合不再具有平方級的記憶體複雜度,由 Lars Buitinck 和 Fabian Pedregosa 貢獻。嶺迴歸和嶺分類現在支援一個名為
lsqr
的新快速求解器,由 Mathieu Blondel 貢獻。metrics.precision_recall_curve
的速度提升,由 Conrad Lee 貢獻。在
datasets.dump_svmlight_file
和datasets.load_svmlight_file
中新增了對讀取/寫入具有成對偏好屬性(svmlight 檔案格式中的 qid)的 svmlight 檔案的支援,由 Fabian Pedregosa 貢獻。更快且更穩健的
metrics.confusion_matrix
和 集群效能評估,由 Wei Li 貢獻。cross_validation.cross_val_score
現在可以使用預先計算的核函數和親和性矩陣,由 Andreas Müller 貢獻。LARS 演算法透過啟發式方法捨棄過於相關的迴歸器,並在數值雜訊變得主要時停止路徑,使其在數值上更穩定,由 Gael Varoquaux 貢獻。
metrics.precision_recall_curve
的更快實作,由 Conrad Lee 貢獻。新的核函數
metrics.chi2_kernel
,由 Andreas Müller 貢獻,常用於電腦視覺應用中。naive_bayes.BernoulliNB
中長期存在的錯誤已由 Shaun Jackman 修復。在
multiclass.OneVsRestClassifier
中實作了predict_proba
,由 Andrew Winterman 貢獻。改善梯度提升的一致性:估計器
ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
使用估計器tree.DecisionTreeRegressor
,而不是tree._tree.Tree
資料結構,由 Arnaud Joly 貢獻。修復了 決策樹 模組中的浮點數例外,由 Seberg 貢獻。
修復了當 y_true 只有一個類別時
metrics.roc_curve
失敗的問題,由 Wei Li 貢獻。新增了計算平均絕對誤差的
metrics.mean_absolute_error
函數。metrics.mean_squared_error
、metrics.mean_absolute_error
和metrics.r2_score
指標都支援多輸出,由 Arnaud Joly 貢獻。修復了
svm.LinearSVC
和linear_model.LogisticRegression
中的class_weight
支援,由 Andreas Müller 貢獻。class_weight
的含義被顛倒了,因為在較早的版本中,較高的權重意味著給定類別的陽性樣本較少。改善
sklearn.metrics
中迴歸和分類指標的敘述性文件和一致性,由 Arnaud Joly 貢獻。修復了當使用具有未排序索引的 csr 矩陣時,
sklearn.svm.SVC
中的一個錯誤,由 Xinfan Meng 和 Andreas Müller 貢獻。cluster.MiniBatchKMeans
:新增了對附加的觀察值很少的集群中心進行隨機重新分配的功能,由 Gael Varoquaux 貢獻。
API 變更摘要#
為了保持一致性,將所有出現的
n_atoms
都重新命名為n_components
。這適用於decomposition.DictionaryLearning
、decomposition.MiniBatchDictionaryLearning
、decomposition.dict_learning
、decomposition.dict_learning_online
。為了保持一致性,將所有出現的
max_iters
都重新命名為max_iter
。這適用於semi_supervised.LabelPropagation
和semi_supervised.label_propagation.LabelSpreading
。為了保持一致性,將
ensemble.BaseGradientBoosting
和ensemble.GradientBoostingRegressor
中所有出現的learn_rate
都重新命名為learning_rate
。sklearn.linear_model.sparse
模組已移除。稀疏矩陣支援已整合到「常規」線性模型中。已移除不正確地回傳累積誤差的
sklearn.metrics.mean_square_error
。請改用metrics.mean_squared_error
。不再支援將
class_weight
參數傳遞給fit
方法。請改為將它們傳遞給估算器建構函式。GMMs 不再有
decode
和rvs
方法。請改用score
、predict
或sample
方法。Ridge 迴歸和分類中的
solver
fit 選項現在已被棄用,並將在 v0.14 中移除。請改用建構函式選項。feature_extraction.text.DictVectorizer
現在會回傳 CSR 格式的稀疏矩陣,而非 COO 格式。將
cross_validation.KFold
和cross_validation.StratifiedKFold
中的k
重新命名為n_folds
,並將cross_validation.Bootstrap
中的n_bootstraps
重新命名為n_iter
。為了保持一致性,將所有出現的
n_iterations
重新命名為n_iter
。這適用於cross_validation.ShuffleSplit
、cross_validation.StratifiedShuffleSplit
、utils.extmath.randomized_range_finder
和utils.extmath.randomized_svd
。將
linear_model.ElasticNet
和linear_model.SGDClassifier
中的rho
取代為l1_ratio
。rho
參數有不同的含義;引入l1_ratio
是為了避免混淆。它的含義與先前在linear_model.ElasticNet
中的rho
和在linear_model.SGDClassifier
中的(1-rho)
相同。linear_model.LassoLars
和linear_model.Lars
現在在多個目標的情況下儲存路徑列表,而不是路徑陣列。hmm.GMMHMM
的屬性gmm
已重新命名為gmm_
,以更嚴格地遵循 API。cluster.spectral_embedding
已移動到manifold.spectral_embedding
。將
manifold.spectral_embedding
和cluster.SpectralClustering
中的eig_tol
重新命名為eigen_tol
,並將mode
重新命名為eigen_solver
。將
manifold.spectral_embedding
和cluster.SpectralClustering
中的mode
重新命名為eigen_solver
。對於單一輸出問題,
tree.DecisionTreeClassifier
和所有衍生集成模型的classes_
和n_classes_
屬性現在是平面的,而對於多輸出問題則是巢狀的。ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
的estimators_
屬性現在是tree.DecisionTreeRegressor
的陣列。為了保持一致性,將
decomposition.MiniBatchDictionaryLearning
和decomposition.MiniBatchSparsePCA
中的chunk_size
重新命名為batch_size
。svm.SVC
和svm.NuSVC
現在提供classes_
屬性,並支援標籤y
的任意 dtype。此外,predict
回傳的 dtype 現在反映了fit
期間y
的 dtype (以前是np.float
)。將
cross_validation.train_test_split
中的預設 test_size 變更為 None,並在cross_validation.ShuffleSplit
和cross_validation.StratifiedShuffleSplit
中新增了從train_size
推斷test_size
的可能性。將函式
sklearn.metrics.zero_one
重新命名為sklearn.metrics.zero_one_loss
。請注意,sklearn.metrics.zero_one_loss
中的預設行為與sklearn.metrics.zero_one
不同:normalize=False
已變更為normalize=True
。將函式
metrics.zero_one_score
重新命名為metrics.accuracy_score
。datasets.make_circles
現在具有相同數量的內部點和外部點。在 Naive Bayes 分類器中,
class_prior
參數已從fit
移動到__init__
。
貢獻者#
按提交次數排列的 0.13 版本貢獻者列表。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106 Wei Li
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19 Aymeric Masurelle
18 Andrew Winterman
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Kyle Beauchamp
9 Brian Cheung
9 Immanuel Bayer
9 mr.Shu
8 Conrad Lee
7 Tadej Janež
6 Brian Cajes
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 cow
5 Anze
5 Shiqiao Du
4 Christian Jauvin
4 Jacques Kvam
4 Richard T. Guy
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Mark Veronda
2 Matti Lyra
2 Mikhail Korobov
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Eugene Nizhibitsky
1 Kenneth C. Arnold
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Sebastian Berg
1 Shaun Jackman
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006