7. 資料集載入工具#
sklearn.datasets
套件嵌入了一些小型玩具資料集,並提供輔助工具來擷取機器學習社群常用的大型資料集,以便在來自「真實世界」的資料上對演算法進行基準測試。
為了評估資料集規模 (n_samples
和 n_features
) 的影響,同時控制資料的統計屬性 (通常是特徵的相關性和資訊量),也可以生成合成資料。
一般資料集 API。根據所需的資料集類型,有三種主要的資料集介面可用於取得資料集。
資料集載入器。它們可用於載入小型標準資料集,如 玩具資料集 章節中所述。
資料集擷取器。它們可用於下載和載入較大的資料集,如 真實世界資料集 章節中所述。
載入器和擷取器函數都會傳回一個 Bunch
物件,其中至少包含兩個項目:一個形狀為 n_samples
* n_features
的陣列,索引鍵為 data
(除了 20newsgroups 外),以及一個長度為 n_samples
的 numpy 陣列,其中包含目標值,索引鍵為 target
。
Bunch 物件是一個字典,它將其鍵公開為屬性。有關 Bunch 物件的更多資訊,請參閱 Bunch
。
幾乎所有這些函數也可以透過將 return_X_y
參數設定為 True
,將輸出限制為僅包含資料和目標的元組。
這些資料集在其 DESCR
屬性中也包含完整的描述,並且有些資料集包含 feature_names
和 target_names
。請參閱下面的資料集描述以了解詳細資訊。
資料集生成函數。它們可用於生成受控的合成資料集,如 生成的資料集 章節中所述。
這些函數會傳回一個元組 (X, y)
,其中包含一個 n_samples
* n_features
numpy 陣列 X
和一個長度為 n_samples
的陣列,其中包含目標 y
。
此外,還有其他工具可以載入其他格式或來自其他位置的資料集,如 載入其他資料集 章節中所述。