版本 0.18#
警告
Scikit-learn 0.18 是 scikit-learn 最後一個支援 Python 2.6 的主要版本。後續版本的 scikit-learn 將需要 Python 2.7 或更高版本。
版本 0.18.2#
2017 年 6 月 20 日
變更日誌#
程式碼貢獻者#
Aman Dalmia, Loic Esteve, Nate Guerin, Sergei Lebedev
版本 0.18.1#
2016 年 11 月 11 日
變更日誌#
增強功能#
透過為大多數情況使用 numpy.random.permutation,改善了
sample_without_replacement
的速度。因此,在此版本中,固定隨機狀態的樣本可能會有所不同。受影響的估計器這也會影響
datasets.make_classification
方法。
錯誤修正#
修正
min_grad_norm
和n_iter_without_progress
參數未被manifold.TSNE
使用的問題。 #6497 由 Sebastian Säger 貢獻修正在
svm.SVC
中,當decision_function_shape
為ovr
時,svm 的決策值錯誤的問題。svm.SVC
的 decision_function 從 0.17.0 到 0.18.0 版本都是不正確的。#7724 由 Bing Tian Dai 貢獻discriminant_analysis.LinearDiscriminantAnalysis
使用 SVD 和 Eigen 解算器計算的屬性explained_variance_ratio
現在長度相同。#7632 由 JPFrancoia 貢獻修正 單變數特徵選擇 中,分數函數不接受多標籤目標的問題。#7676 由 Mohammed Affan 貢獻
修正多次在
feature_selection.SelectFromModel
上呼叫fit
時設定參數的問題。#7756 由 Andreas Müller 貢獻修正當
partial_fit
中使用的類別數量少於資料中的總類別數量時,multiclass.OneVsRestClassifier
的partial_fit
方法中的問題。#7786 由 Srivatsan Ramesh 貢獻修正
calibration.CalibratedClassifierCV
中,每個類別的機率總和不為 1 的問題,並且CalibratedClassifierCV
現在可以處理訓練集中類別數量少於總資料的情況。#7799 由 Srivatsan Ramesh 貢獻修復
sklearn.feature_selection.SelectFdr
未確切實作 Benjamini-Hochberg 程序的問題。它以前可能選擇了比它應該選擇的更少的特徵。#7490 由 Peng Meng 貢獻。sklearn.manifold.LocallyLinearEmbedding
現在可以正確處理整數輸入。#6282 由 Jake Vanderplas 貢獻。如果未將
sample_weight
引數傳遞給fit
函數,則基於樹的分類器和回歸器的min_weight_fraction_leaf
參數現在預設為假設均勻樣本權重。以前,該參數會被靜默忽略。#7301 由 Nelson Liu 貢獻。當
n_features > n_samples
時,linear_model.RidgeCV
在居中資料上的數值問題。#6178 由 Bertrand Thirion 貢獻樹分割準則類別的複製/pickle 現在是記憶體安全的 #7680 由 Ibraim Ganiev 貢獻。
修復
decomposition.NMF
在transform()
中設定其n_iters_
屬性的錯誤。#7553 由 Ekaterina Krivich 貢獻。sklearn.linear_model.LogisticRegressionCV
現在可以正確處理字串標籤。#5874 由 Raghav RV 貢獻。修復當
stratify
是字串標籤列表時,sklearn.model_selection.train_test_split
引發錯誤的錯誤。#7593 由 Raghav RV 貢獻。修復由於
np.ma.MaskedArray
中的 pickle 錯誤,導致sklearn.model_selection.GridSearchCV
和sklearn.model_selection.RandomizedSearchCV
無法被 pickle 的錯誤。#7594 由 Raghav RV 貢獻。現在
sklearn.model_selection
中的所有交叉驗證工具都允許將單次交叉驗證分割器用於cv
參數。此外,非確定性的交叉驗證分割器(多次呼叫split
會產生不同的分割)也可以用作cv
參數。sklearn.model_selection.GridSearchCV
會根據交叉驗證分割器第一次呼叫split
所產生的分割來交叉驗證每個參數設定。由 Raghav RV 提出的 #7660 問題。修正了
preprocessing.MultiLabelBinarizer.fit_transform
回傳無效的 CSR 矩陣的錯誤。由 CJ Carey 提出的 #7750 問題。修正了
metrics.pairwise.cosine_distances
可能會回傳一個小的負距離的錯誤。由 Artsion 提出的 #7732 問題。
API 變更摘要#
樹狀結構與森林
如果未將
sample_weight
引數傳遞給fit
函數,則基於樹的分類器和回歸器的min_weight_fraction_leaf
參數現在預設為假設均勻樣本權重。以前,該參數會被靜默忽略。#7301 由 Nelson Liu 貢獻。現在樹狀結構分割準則類別的複製/序列化在記憶體上是安全的。由 Ibraim Ganiev 提出的 #7680 問題。
線性、核函數化與相關模型
針對 Eigen 和 SVD 求解器,
discriminant_analysis.LinearDiscriminantAnalysis
的explained_variance_ratio
長度已變更。此屬性現在的長度為 min(n_components, n_classes - 1)。由 JPFrancoia 提出的 #7632 問題。當
n_features > n_samples
時,linear_model.RidgeCV
在居中資料上的數值問題。#6178 由 Bertrand Thirion 貢獻
版本 0.18#
2016 年 9 月 28 日
模型選擇增強功能與 API 變更#
model_selection 模組
新的模組
sklearn.model_selection
,將先前的sklearn.cross_validation
、sklearn.grid_search
和sklearn.learning_curve
的功能整合在一起,引入了新的可能性,例如巢狀交叉驗證以及使用 Pandas 更佳地操作參數搜尋。許多事情將保持不變,但有一些關鍵差異。請閱讀以下內容以了解更多關於變更的資訊。
啟用巢狀交叉驗證的與資料無關的 CV 分割器
在
sklearn.model_selection
中定義的新交叉驗證分割器不再使用任何與資料相關的參數(例如y
)進行初始化。相反,它們公開了一個split
方法,該方法接收資料並產生一個針對不同分割的產生器。此變更使得可以使用交叉驗證分割器來執行巢狀交叉驗證,這可以透過
model_selection.GridSearchCV
和model_selection.RandomizedSearchCV
工具來實現。增強的 cv_results_ 屬性
新的
cv_results_
屬性(屬於model_selection.GridSearchCV
和model_selection.RandomizedSearchCV
),取代了grid_scores_
屬性,是一個 1D 陣列的字典,每個陣列中的元素對應於參數設定(即搜尋候選者)。可以輕鬆地將
cv_results_
字典匯入pandas
作為DataFrame
,以探索搜尋結果。cv_results_
陣列包含每個交叉驗證分割的分數(包含諸如'split0_test_score'
之類的鍵),以及它們的平均值 ('mean_test_score'
) 和標準差 ('std_test_score'
)。搜尋候選者的排名(基於其平均交叉驗證分數)可在
cv_results_['rank_test_score']
中找到。每個參數的參數值會分別儲存為 NumPy 遮罩物件陣列。如果對應的參數不適用,則會遮罩該搜尋候選者的值。此外,所有參數字典的列表都儲存在
cv_results_['params']
中。參數 n_folds 和 n_iter 已重新命名為 n_splits
某些參數名稱已變更:新的
model_selection.KFold
、model_selection.GroupKFold
(請參閱下文以了解名稱變更)和model_selection.StratifiedKFold
中的n_folds
參數現在已重新命名為n_splits
。model_selection.ShuffleSplit
、新類別model_selection.GroupShuffleSplit
和model_selection.StratifiedShuffleSplit
中的n_iter
參數現在已重新命名為n_splits
。接受群組標籤以及資料的分割器類別已重新命名
交叉驗證分割器
LabelKFold
、LabelShuffleSplit
、LeaveOneLabelOut
和LeavePLabelOut
已分別重新命名為model_selection.GroupKFold
、model_selection.GroupShuffleSplit
、model_selection.LeaveOneGroupOut
和model_selection.LeavePGroupsOut
。請注意
model_selection.LeavePGroupsOut
中的單數形式變更為複數形式。擬合參數標籤已重新命名為群組
在重新命名的分割器
model_selection.GroupKFold
、model_selection.LeaveOneGroupOut
、model_selection.LeavePGroupsOut
、model_selection.GroupShuffleSplit
的split
方法中的labels
參數已重新命名為groups
,遵循其類別名稱的新命名法。參數 n_labels 已重新命名為 n_groups
新重新命名的
model_selection.LeavePGroupsOut
中的參數n_labels
已變更為n_groups
。訓練分數與計時資訊
cv_results_
也包含每個交叉驗證分割的訓練分數(包含諸如'split0_train_score'
之類的鍵),以及它們的平均值 ('mean_train_score'
) 和標準差 ('std_train_score'
)。若要避免評估訓練分數的成本,請設定return_train_score=False
。此外,在所有交叉驗證分割中,分割、訓練和評分模型所花費時間的平均值和標準差,分別可透過鍵
'mean_time'
和'std_time'
取得。
更新日誌#
新功能#
分類器和迴歸器
高斯過程模組已重新實作,現在透過
gaussian_process.GaussianProcessClassifier
和gaussian_process.GaussianProcessRegressor
提供分類和迴歸估計器。 除此之外,新的實作支援核心工程、基於梯度的超參數優化,或從 GP 先驗和 GP 後驗中取樣函數。提供廣泛的文件和範例。由 Jan Hendrik Metzen 提供。新增監督式學習演算法:多層感知器 #3204,由 Issam H. Laradji 提供。
新增
linear_model.HuberRegressor
,一種對離群值具有穩健性的線性模型。#5291,由 Manoj Kumar 提供。新增
multioutput.MultiOutputRegressor
元估計器。它透過為每個輸出擬合一個迴歸器,將單輸出迴歸器轉換為多輸出迴歸器。由 Tim Head 提供。
其他估計器
新的
mixture.GaussianMixture
和mixture.BayesianGaussianMixture
取代先前的混合模型,採用更快的推論以獲得更可靠的結果。#7295,由 Wei Xue 和 Thierry Guillemot 提供。類別
decomposition.RandomizedPCA
現在已分解為decomposition.PCA
,並且可以透過使用參數svd_solver='randomized'
呼叫。'randomized'
的預設n_iter
數量已變更為 4。PCA 的舊行為可以透過svd_solver='full'
還原。額外的求解器呼叫arpack
並執行截斷(非隨機化)SVD。預設情況下,會根據輸入大小和請求的組件數量選擇最佳求解器。#5299,由 Giorgio Patrini 提供。新增兩個用於互資訊估計的函數:
feature_selection.mutual_info_classif
和feature_selection.mutual_info_regression
。這些函數可以在feature_selection.SelectKBest
和feature_selection.SelectPercentile
中作為評分函數使用。由 Andrea Bravi 和 Nikolay Mayorov 提供。新增基於隨機森林的異常偵測類別
ensemble.IsolationForest
。由 Nicolas Goix 提供。新增
algorithm="elkan"
至cluster.KMeans
,實作 Elkan 的快速 K-Means 演算法。由 Andreas Müller 提供。
模型選擇和評估
新增
metrics.fowlkes_mallows_score
,Fowlkes Mallows 指數,用於衡量一組點的兩個集群的相似度。由 Arnaud Fouchet 和 Thierry Guillemot 提供。新增
metrics.calinski_harabaz_score
,計算 Calinski 和 Harabaz 分數,以評估一組點的集群結果。由 Arnaud Fouchet 和 Thierry Guillemot 提供。新增用於處理時間序列資料的新交叉驗證分割器
model_selection.TimeSeriesSplit
。#6586,由 YenChen Lin 提供。交叉驗證迭代器已由
sklearn.model_selection
中提供的交叉驗證分割器取代,允許進行巢狀交叉驗證。有關更多資訊,請參閱 模型選擇增強和 API 變更。#4294,由 Raghav RV 提供。
增強功能#
樹和集成
為
tree.DecisionTreeRegressor
新增新的分割準則,即平均絕對誤差。此準則也可以用於ensemble.ExtraTreesRegressor
、ensemble.RandomForestRegressor
和梯度提升估計器。#6667,由 Nelson Liu 提供。為決策樹成長新增基於加權雜質的提前停止準則。#6954,由 Nelson Liu 提供
隨機森林、額外樹和決策樹估計器現在有一個方法
decision_path
,它返回樹中樣本的決策路徑。由 Arnaud Joly 提供。已新增一個新的範例,揭示決策樹結構。由 Arnaud Joly 提供。
隨機森林、額外樹、決策樹和梯度提升估計器接受參數
min_samples_split
和min_samples_leaf
,以訓練樣本的百分比提供。由 yelite 和 Arnaud Joly 提供。梯度提升估計器接受參數
criterion
來指定在建構決策樹中使用的分割準則。#6667,由 Nelson Liu 提供。ensemble.bagging.BaseBagging
和從它繼承的類別(即ensemble.BaggingClassifier
、ensemble.BaggingRegressor
和ensemble.IsolationForest
)的記憶體佔用量減少(有時顯著減少),方法是僅在需要時才動態產生屬性estimators_samples_
。由 David Staub 提供。為
ensemble.VotingClassifier
新增了n_jobs
和sample_weight
參數,以便平行擬合底層的估計器。#5805,由 Ibraim Ganiev 貢獻。
線性、核函數化與相關模型
在
linear_model.LogisticRegression
中,SAG 求解器現在可用於多項式的情況。#5251,由 Tom Dupre la Tour 貢獻。linear_model.RANSACRegressor
、svm.LinearSVC
和svm.LinearSVR
現在支援sample_weight
。由 Imaculate 貢獻。為
linear_model.RANSACRegressor
新增了loss
參數,以便在每次試驗中測量樣本的誤差。由 Manoj Kumar 貢獻。使用等張迴歸 (
isotonic.IsotonicRegression
) 預測樣本外事件的速度現在快得多(在合成資料的測試中超過 1000 倍)。由 Jonathan Arfa 貢獻。等張迴歸 (
isotonic.IsotonicRegression
) 現在使用更好的演算法來避免在病態情況下出現O(n^2)
的行為,並且整體速度也更快 (##6691)。由 Antony Lee 貢獻。naive_bayes.GaussianNB
現在透過priors
參數接受與資料無關的類別先驗機率。由 Guillaume Lemaitre 貢獻。linear_model.ElasticNet
和linear_model.Lasso
現在可以使用np.float32
輸入資料,而無需將其轉換為np.float64
。這可以減少記憶體消耗。#6913,由 YenChen Lin 貢獻。semi_supervised.LabelPropagation
和semi_supervised.LabelSpreading
現在除了字串knn
和rbf
外,還接受任意的核心函數。#5762,由 Utkarsh Upadhyay 貢獻。
分解、流形學習和分群
為
decomposition.NMF
新增了inverse_transform
函數,以計算原始形狀的資料矩陣。由 Anish Shah 貢獻。cluster.KMeans
和cluster.MiniBatchKMeans
現在可以使用np.float32
和np.float64
輸入資料,而無需轉換。這可以透過使用np.float32
來減少記憶體消耗。#6846,由 Sebastian Säger 和 YenChen Lin 貢獻。
預處理和特徵選擇
preprocessing.RobustScaler
現在接受quantile_range
參數。#5929,由 Konstantin Podshumok 貢獻。feature_extraction.FeatureHasher
現在接受字串值。#6173,由 Ryad Zenine 和 Devashish Deshpande 貢獻。現在可以使用
kw_args
參數將關鍵字參數提供給preprocessing.FunctionTransformer
中的func
。由 Brian McFee 貢獻。feature_selection.SelectKBest
和feature_selection.SelectPercentile
現在接受將 X 和 y 作為輸入並僅傳回分數的評分函數。由 Nikolay Mayorov 貢獻。
模型評估和元估計器
multiclass.OneVsOneClassifier
和multiclass.OneVsRestClassifier
現在支援partial_fit
。由 Asish Panda 和 Philipp Dowling 貢獻。新增了對使用
set_params
介面來替換或停用pipeline.Pipeline
和pipeline.FeatureUnion
組件的支援,這也是sklearn.grid_search
的驅動機制。請參閱 使用 Pipeline 和 GridSearchCV 選擇降維。由 Joel Nothman 和 Robert McGibbon 貢獻。model_selection.GridSearchCV
(和model_selection.RandomizedSearchCV
) 的新cv_results_
屬性可以輕鬆匯入 pandas 作為DataFrame
。有關更多資訊,請參閱 模型選擇增強功能和 API 變更。#6697,由 Raghav RV 貢獻。對
model_selection.cross_val_predict
進行一般化。可以將方法名稱 (例如predict_proba
) 傳遞到交叉驗證框架中使用,而不是預設的predict
。由 Ori Ziv 和 Sears Merritt 貢獻。每個搜尋候選者的訓練分數和訓練後評分所花費的時間現在可在
cv_results_
字典中取得。有關更多資訊,請參閱 模型選擇增強功能和 API 變更。#7325,由 Eugene Chen 和 Raghav RV 貢獻。
指標
為
metrics.log_loss
新增了labels
旗標,以便在y_true
和y_pred
中的類別數不同時,明確提供標籤。#7239,由 Hong Guangguo 貢獻,並由 Mads Jensen 和 Nelson Liu 協助。支援叢集評估中的稀疏列聯矩陣 (
metrics.cluster.supervised
),以便擴展到大量叢集。#7419,由 Gregory Stupp 和 Joel Nothman 貢獻。新增
sample_weight
參數至metrics.matthews_corrcoef
。由 Jatin Shah 和 Raghav RV 提供。透過使用向量化操作加速
metrics.silhouette_score
。由 Manoj Kumar 提供。新增
sample_weight
參數至metrics.confusion_matrix
。由 Bernardo Stein 提供。
其他
新增
n_jobs
參數至feature_selection.RFECV
以平行計算測試摺疊上的分數。由 Manoj Kumar 提供。程式碼庫不包含 C/C++ cython 生成的檔案:這些檔案會在建置期間生成。發佈套件仍會包含生成的 C/C++ 檔案。由 Arthur Mensch 提供。
透過支援 cython 融合類型,減少
utils.sparse_func.mean_variance_axis
和utils.sparse_func.incr_mean_variance_axis
的 32 位元浮點輸入陣列的記憶體使用量。由 YenChen Lin 提供。ignore_warnings
現在接受類別參數,僅忽略指定類型的警告。由 Thierry Guillemot 提供。新增參數
return_X_y
和返回類型(data, target) : tuple
選項至datasets.load_iris
資料集 #7049、datasets.load_breast_cancer
資料集 #7152、datasets.load_digits
資料集、datasets.load_diabetes
資料集、datasets.load_linnerud
資料集、datasets.load_boston
資料集 #7154,由 Manvendra Singh 提供。簡化
clone
函式,不建議支援在__init__
中修改參數的估計器。#5540,由 Andreas Müller 提供。當反序列化與訓練估計器時使用不同版本的 scikit-learn 估計器時,會引發
UserWarning
,詳情請參閱 模型持久化文件。(#7248)由 Andreas Müller 提供。
錯誤修正#
樹和集成
隨機森林、額外樹、決策樹和梯度提升不再接受
min_samples_split=1
,因為至少需要 2 個樣本才能分割決策樹節點。由 Arnaud Joly 提供。如果對未擬合的估計器呼叫
predict
、transform
或predict_proba
,ensemble.VotingClassifier
現在會引發NotFittedError
。由 Sebastian Raschka 提供。修正當
random_state
固定時,ensemble.AdaBoostClassifier
和ensemble.AdaBoostRegressor
效能不佳的錯誤(#7411)。由 Joel Nothman 提供。修正具有隨機化的集成中的錯誤,該錯誤會導致集成不會在管道或類似巢狀結構的基本估計器上設定
random_state
。(#7411)。請注意,ensemble.BaggingClassifier
、ensemble.BaggingRegressor
、ensemble.AdaBoostClassifier
和ensemble.AdaBoostRegressor
的結果現在會與先前版本不同。由 Joel Nothman 提供。
線性、核函數化與相關模型
修正
linear_model.SGDClassifier
和linear_model.SGDRegressor
中loss='squared_epsilon_insensitive'
的不正確梯度計算(#6764)。由 Wenhua Yang 提供。修正
linear_model.LogisticRegressionCV
中solver='liblinear'
不接受class_weights='balanced'
的錯誤。(#6817)。由 Tom Dupre la Tour 提供。修正當標記異常值並指定權重函式時,
neighbors.RadiusNeighborsClassifier
中發生錯誤的錯誤(#6902)。由 LeonieBorne 提供。修正
linear_model.ElasticNet
稀疏決策函數,使其與多輸出情況下的密集輸出相符。
分解、流形學習和分群
decomposition.RandomizedPCA
的預設iterated_power
數為 4 而不是 3。#5141,由 Giorgio Patrini 提供。utils.extmath.randomized_svd
預設執行 4 次冪迭代,而不是 0 次。實際上,這足以在存在雜訊的情況下獲得對真實特徵值/向量的良好近似值。當n_components
很小時(< .1 * min(X.shape)
),除非使用者指定更高的數字,否則n_iter
會設定為 7。這提高了少量元件的精確度。#5299,由 Giorgio Patrini 提供。修正
decomposition.PCA
和decomposition.RandomizedPCA
的元件之間的美白/非美白不一致(現在已分解為 PCA,請參閱新功能)。components_
會在沒有美白的情況下儲存。#5299,由 Giorgio Patrini 提供。修正
manifold.spectral_embedding
中未標準化的拉普拉斯矩陣的對角線錯誤設定為 1 的錯誤。#4995,由 Peter Fischer 提供。修正所有出現的
utils.arpack.eigsh
的不正確初始化。影響cluster.bicluster.SpectralBiclustering
、decomposition.KernelPCA
、manifold.LocallyLinearEmbedding
和manifold.SpectralEmbedding
(#5012)。由 Peter Fischer 提供。使用 SVD 求解器計算的
discriminant_analysis.LinearDiscriminantAnalysis
的屬性explained_variance_ratio_
現在會返回正確的結果。由 JPFrancoia 提供
預處理和特徵選擇
當
copy=True
時,preprocessing.data._transform_selected
現在總是將X
的副本傳遞給轉換函式(#7194)。由 Caio Oliveira 貢獻。
模型評估和元估計器
如果各類別的 n_labels 皆小於 n_folds,則
model_selection.StratifiedKFold
現在會引發錯誤。#6182 由 Devashish Deshpande 貢獻。修正了
model_selection.StratifiedShuffleSplit
中的錯誤,在某些邊緣情況下,訓練和測試樣本可能會重疊,詳情請參閱 #6121。由 Loic Esteve 貢獻。修正了
sklearn.model_selection.StratifiedShuffleSplit
,使其在所有情況下都回傳大小為train_size
和test_size
的分割(#6472)。由 Andreas Müller 貢獻。multiclass.OneVsOneClassifier
和multiclass.OneVsRestClassifier
的交叉驗證現在可以使用預先計算的核函數。#7350 由 Russell Smith 貢獻。修正了從
model_selection.GridSearchCV
到linear_model.SGDClassifier
的不完整predict_proba
方法委派錯誤(#7159)。由 Yichuan Liu 貢獻。
指標
修正了
metrics.silhouette_score
中的錯誤,其中大小為 1 的群集被錯誤地評分。它們應獲得 0 分。由 Joel Nothman 貢獻。修正了
metrics.silhouette_samples
,使其現在可以使用任意標籤,而不僅僅是 0 到 n_clusters - 1 的標籤。修正了如果群集列聯表單元格超過
2**16
,預期和調整的互信息不正確的錯誤。由 Joel Nothman 貢獻。metrics.pairwise_distances
現在在scipy.spatial.distance
中需要時會將陣列轉換為布林陣列。#5460 由 Tom Dupre la Tour 貢獻。修正了
metrics.silhouette_score
以及範例 examples/text/document_clustering.py 中的稀疏輸入支援。由 YenChen Lin 貢獻。metrics.roc_curve
和metrics.precision_recall_curve
在建立 ROC 曲線時不再對y_score
值進行四捨五入;這會導致分數差異非常小的用戶出現問題(#7353)。
其他
model_selection.tests._search._check_param_grid
現在可以正確處理所有擴展/實作Sequence
的類型(字串除外),包括 range(Python 3.x)和 xrange(Python 2.x)。#7323 由 Viacheslav Kovalevskyi 貢獻。當要求許多冪次迭代時,
utils.extmath.randomized_range_finder
在數值上更穩定,因為它預設會套用 LU 正規化。如果n_iter<2
,則不太可能出現數值問題,因此不會套用正規化。其他正規化選項可用:'none'
、'LU'
和'QR'
。#5141 由 Giorgio Patrini 貢獻。修正了一個錯誤,其中某些格式的
scipy.sparse
矩陣以及以它們作為參數的估計器無法傳遞給base.clone
。由 Loic Esteve 貢獻。datasets.load_svmlight_file
現在能夠讀取長整數 QID 值。#7101 由 Ibraim Ganiev 貢獻。
API 變更摘要#
線性、核函數化與相關模型
residual_metric
已在linear_model.RANSACRegressor
中棄用。請改用loss
。由 Manoj Kumar 貢獻。在
isotonic.IsotonicRegression
中,存取公開屬性.X_
和.y_
已被棄用。由 Jonathan Arfa 貢獻。
分解、流形學習和分群
舊的
mixture.DPGMM
已被棄用,改用新的mixture.BayesianGaussianMixture
(參數為weight_concentration_prior_type='dirichlet_process'
)。新的類別解決了舊類別的計算問題,並以比以前更快的速度計算具有狄利克雷過程先驗的高斯混合模型。#7295 由 Wei Xue 和 Thierry Guillemot 貢獻。舊的
mixture.VBGMM
已被棄用,改用新的mixture.BayesianGaussianMixture
(參數為weight_concentration_prior_type='dirichlet_distribution'
)。新的類別解決了舊類別的計算問題,並以比以前更快的速度計算變分貝氏高斯混合模型。#6651 由 Wei Xue 和 Thierry Guillemot 貢獻。舊的
mixture.GMM
已被棄用,改用新的mixture.GaussianMixture
。新的類別計算高斯混合模型的速度比以前更快,並且解決了一些計算問題。#6666 由 Wei Xue 和 Thierry Guillemot 貢獻。
模型評估和元估計器
程式碼貢獻者#
Aditya Joshi, Alejandro, Alexander Fabisch, Alexander Loginov, Alexander Minyushkin, Alexander Rudy, Alexandre Abadie, Alexandre Abraham, Alexandre Gramfort, Alexandre Saint, alexfields, Alvaro Ulloa, alyssaq, Amlan Kar, Andreas Mueller, andrew giessel, Andrew Jackson, Andrew McCulloh, Andrew Murray, Anish Shah, Arafat, Archit Sharma, Ariel Rokem, Arnaud Joly, Arnaud Rachez, Arthur Mensch, Ash Hoover, asnt, b0noI, Behzad Tabibian, Bernardo, Bernhard Kratzwald, Bhargav Mangipudi, blakeflei, Boyuan Deng, Brandon Carter, Brett Naul, Brian McFee, Caio Oliveira, Camilo Lamus, Carol Willing, Cass, CeShine Lee, Charles Truong, Chyi-Kwei Yau, CJ Carey, codevig, Colin Ni, Dan Shiebler, Daniel, Daniel Hnyk, David Ellis, David Nicholson, David Staub, David Thaler, David Warshaw, Davide Lasagna, Deborah, definitelyuncertain, Didi Bar-Zev, djipey, dsquareindia, edwinENSAE, Elias Kuthe, Elvis DOHMATOB, Ethan White, Fabian Pedregosa, Fabio Ticconi, fisache, Florian Wilhelm, Francis, Francis O’Donovan, Gael Varoquaux, Ganiev Ibraim, ghg, Gilles Louppe, Giorgio Patrini, Giovanni Cherubin, Giovanni Lanzani, Glenn Qian, Gordon Mohr, govin-vatsan, Graham Clenaghan, Greg Reda, Greg Stupp, Guillaume Lemaitre, Gustav Mörtberg, halwai, Harizo Rajaona, Harry Mavroforakis, hashcode55, hdmetor, Henry Lin, Hobson Lane, Hugo Bowne-Anderson, Igor Andriushchenko, Imaculate, Inki Hwang, Isaac Sijaranamual, Ishank Gulati, Issam Laradji, Iver Jordal, jackmartin, Jacob Schreiber, Jake Vanderplas, James Fiedler, James Routley, Jan Zikes, Janna Brettingen, jarfa, Jason Laska, jblackburne, jeff levesque, Jeffrey Blackburne, Jeffrey04, Jeremy Hintz, jeremynixon, Jeroen, Jessica Yung, Jill-Jênn Vie, Jimmy Jia, Jiyuan Qian, Joel Nothman, johannah, John, John Boersma, John Kirkham, John Moeller, jonathan.striebel, joncrall, Jordi, Joseph Munoz, Joshua Cook, JPFrancoia, jrfiedler, JulianKahnert, juliathebrave, kaichogami, KamalakerDadi, Kenneth Lyons, Kevin Wang, kingjr, kjell, Konstantin Podshumok, Kornel Kielczewski, Krishna Kalyan, krishnakalyan3, Kvle Putnam, Kyle Jackson, Lars Buitinck, ldavid, LeiG, LeightonZhang, Leland McInnes, Liang-Chi Hsieh, Lilian Besson, lizsz, Loic Esteve, Louis Tiao, Léonie Borne, Mads Jensen, Maniteja Nandana, Manoj Kumar, Manvendra Singh, Marco, Mario Krell, Mark Bao, Mark Szepieniec, Martin Madsen, MartinBpr, MaryanMorel, Massil, Matheus, Mathieu Blondel, Mathieu Dubois, Matteo, Matthias Ekman, Max Moroz, Michael Scherer, michiaki ariga, Mikhail Korobov, Moussa Taifi, mrandrewandrade, Mridul Seth, nadya-p, Naoya Kanai, Nate George, Nelle Varoquaux, Nelson Liu, Nick James, NickleDave, Nico, Nicolas Goix, Nikolay Mayorov, ningchi, nlathia, okbalefthanded, Okhlopkov, Olivier Grisel, Panos Louridas, Paul Strickland, Perrine Letellier, pestrickland, Peter Fischer, Pieter, Ping-Yao, Chang, practicalswift, Preston Parry, Qimu Zheng, Rachit Kansal, Raghav RV, Ralf Gommers, Ramana.S, Rammig, Randy Olson, Rob Alexander, Robert Lutz, Robin Schucker, Rohan Jain, Ruifeng Zheng, Ryan Yu, Rémy Léone, saihttam, Saiwing Yeung, Sam Shleifer, Samuel St-Jean, Sartaj Singh, Sasank Chilamkurthy, saurabh.bansod, Scott Andrews, Scott Lowe, seales, Sebastian Raschka, Sebastian Saeger, Sebastián Vanrell, Sergei Lebedev, shagun Sodhani, shanmuga cv, Shashank Shekhar, shawpan, shengxiduan, Shota, shuckle16, Skipper Seabold, sklearn-ci, SmedbergM, srvanrell, Sébastien Lerique, Taranjeet, themrmax, Thierry, Thierry Guillemot, Thomas, Thomas Hallock, Thomas Moreau, Tim Head, tKammy, toastedcornflakes, Tom, TomDLT, Toshihiro Kamishima, tracer0tong, Trent Hauck, trevorstephens, Tue Vo, Varun, Varun Jewalikar, Viacheslav, Vighnesh Birodkar, Vikram, Villu Ruusmann, Vinayak Mehta, walter, waterponey, Wenhua Yang, Wenjian Huang, Will Welch, wyseguy7, xyguo, yanlend, Yaroslav Halchenko, yelite, Yen, YenChenLin, Yichuan Liu, Yoav Ram, Yoshiki, Zheng RuiFeng, zivori, Óscar Nájera