train_test_split#

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[原始碼]#

將陣列或矩陣分割成隨機的訓練和測試子集。

快速實用工具，封裝了輸入驗證、next(ShuffleSplit().split(X, y))，並將其應用於輸入資料，只需單一呼叫即可將資料分割（並選擇性地進行子取樣）成一行程式碼。

請在使用者指南中閱讀更多資訊。

參數:

*arrays具有相同長度/形狀[0]的可索引序列: 允許的輸入為列表、NumPy 陣列、SciPy 稀疏矩陣或 Pandas 資料框架。
test_size浮點數或整數，預設值為 None: 如果為浮點數，則應介於 0.0 和 1.0 之間，表示要包含在測試分割中的資料集比例。如果為整數，則表示測試樣本的絕對數量。如果為 None，則該值會設定為訓練大小的補數。如果 train_size 也為 None，則會設定為 0.25。
train_size浮點數或整數，預設值為 None: 如果為浮點數，則應介於 0.0 和 1.0 之間，表示要包含在訓練分割中的資料集比例。如果為整數，則表示訓練樣本的絕對數量。如果為 None，則該值會自動設定為測試大小的補數。
random_state整數、RandomState 實例或 None，預設值為 None: 控制在分割資料前應用於資料的洗牌。傳遞整數值以便在多個函式呼叫之間產生可重複的輸出。請參閱詞彙表。
shuffle布林值，預設值為 True: 是否在分割資料之前打亂資料。如果 shuffle=False，則 stratify 必須為 None。
stratify類陣列，預設值為 None: 如果不是 None，則資料會以分層方式分割，並以此作為類別標籤。請在使用者指南中閱讀更多資訊。

返回:

splitting列表，長度 = 2 * len(arrays): 包含輸入資料訓練測試分割的列表。

0.16 版新增: 如果輸入為稀疏矩陣，則輸出將會是 scipy.sparse.csr_matrix。否則，輸出類型與輸入類型相同。

範例

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]

>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

範例展示#

scikit-learn 1.5 的版本重點

scikit-learn 1.5 的版本重點

scikit-learn 1.4 的版本重點

scikit-learn 1.4 的版本重點

scikit-learn 0.24 的版本重點

scikit-learn 0.24 的版本重點

scikit-learn 0.23 的版本重點

scikit-learn 0.23 的版本重點

scikit-learn 0.22 的版本重點

scikit-learn 0.22 的版本重點

分類器校準比較

分類器校準比較

機率校準曲線

機率校準曲線

分類器的機率校準

分類器的機率校準

分類器比較

分類器比較

手寫數字辨識

手寫數字辨識

主成分迴歸 vs 偏最小平方迴歸

主成分迴歸 vs 偏最小平方迴歸

使用成本複雜度修剪對決策樹進行後修剪

使用成本複雜度修剪對決策樹進行後修剪

了解決策樹結構

了解決策樹結構

核主成分分析

核主成分分析

比較隨機森林和多輸出元估計器

比較隨機森林和多輸出元估計器

梯度提升中的提前停止

梯度提升中的提前停止

使用樹林的重要性特徵

使用樹林的重要性特徵

使用樹集成進行特徵轉換

使用樹集成進行特徵轉換

直方圖梯度提升樹中的特徵

直方圖梯度提升樹中的特徵

梯度提升袋外估計

梯度提升袋外估計

梯度提升迴歸

梯度提升迴歸

梯度提升正規化

梯度提升正規化

IsolationForest 範例

IsolationForest 範例

多類 AdaBoosted 決策樹

多類 AdaBoosted 決策樹

梯度提升迴歸的預測區間

梯度提升迴歸的預測區間

使用特徵臉和 SVM 的人臉辨識範例

使用特徵臉和 SVM 的人臉辨識範例

使用核主成分分析進行影像降噪

使用核主成分分析進行影像降噪

時間序列預測的滯後特徵

時間序列預測的滯後特徵

模型複雜度影響

模型複雜度影響

預測延遲

管線 ANOVA SVM

管線 ANOVA SVM

單變量特徵選擇

單變量特徵選擇

使用 FrozenEstimator 的範例

使用 FrozenEstimator 的範例

比較各種線上求解器

比較各種線上求解器

隨機梯度下降的提前停止

隨機梯度下降的提前停止

用於稀疏訊號的基於 L1 的模型

用於稀疏訊號的基於 L1 的模型

使用多項邏輯迴歸 + L1 的 MNIST 分類

使用多項邏輯迴歸 + L1 的 MNIST 分類

在 20newgroups 上進行多類稀疏邏輯迴歸

在 20newgroups 上進行多類稀疏邏輯迴歸

非負最小平方

非負最小平方

普通最小平方法範例

普通最小平方法範例

泊松迴歸和非正規損失

泊松迴歸和非正規損失

保險索賠的 Tweedie 迴歸

保險索賠的 Tweedie 迴歸

線性模型係數解釋中的常見陷阱

線性模型係數解釋中的常見陷阱

機器學習無法推斷因果效應

機器學習無法推斷因果效應

排列重要性 vs 隨機森林特徵重要性 (MDI)

排列重要性 vs 隨機森林特徵重要性 (MDI)

具有多重共線性或相關特徵的排列重要性

具有多重共線性或相關特徵的排列重要性

使用多項式核逼近進行可伸縮學習

使用多項式核逼近進行可伸縮學習

離群值偵測估計器的評估

離群值偵測估計器的評估

導入 set_output API

導入 set_output API

具有視覺化 API 的 ROC 曲線

具有視覺化 API 的 ROC 曲線

使用顯示物件進行視覺化

使用顯示物件進行視覺化

使用類別可能性比率來衡量分類效能

使用類別可能性比率來衡量分類效能

混淆矩陣

具有交叉驗證的網格搜尋的自訂重新擬合策略

具有交叉驗證的網格搜尋的自訂重新擬合策略

偵測誤差權衡 (DET) 曲線

偵測誤差權衡 (DET) 曲線

模型正規化對訓練和測試誤差的影響

模型正規化對訓練和測試誤差的影響

多類接收者操作特徵 (ROC)

多類接收者操作特徵 (ROC)

針對成本敏感學習微調決策閾值

針對成本敏感學習微調決策閾值

精確度-召回率

精確度-召回率

使用分類器鏈進行多標籤分類

使用分類器鏈進行多標籤分類

比較有和沒有鄰域成分分析的最近鄰

比較有和沒有鄰域成分分析的最近鄰

使用鄰域成分分析進行降維

使用鄰域成分分析進行降維

最近鄰分類

最近鄰分類

用於數字分類的受限波茲曼機特徵

用於數字分類的受限波茲曼機特徵

多層感知器中的不同正規化

多層感知器中的不同正規化

在 MNIST 上視覺化 MLP 權重

在 MNIST 上視覺化 MLP 權重

具有混合類型的列轉換器

具有混合類型的列轉換器

轉換迴歸模型目標的影響

轉換迴歸模型目標的影響

特徵離散化

特徵離散化

特徵縮放的重要性

特徵縮放的重要性

將資料對應到常態分佈

將資料對應到常態分佈

目標編碼器的內部交叉擬合

目標編碼器的內部交叉擬合

文字資料集上的半監督分類

文字資料集上的半監督分類