7. 資料集載入工具#

sklearn.datasets 套件嵌入了一些小型玩具資料集,並提供輔助工具來擷取機器學習社群常用的大型資料集,以便在來自「真實世界」的資料上對演算法進行基準測試。

為了評估資料集規模 (n_samplesn_features) 的影響,同時控制資料的統計屬性 (通常是特徵的相關性和資訊量),也可以生成合成資料。

一般資料集 API。根據所需的資料集類型,有三種主要的資料集介面可用於取得資料集。

資料集載入器。它們可用於載入小型標準資料集,如 玩具資料集 章節中所述。

資料集擷取器。它們可用於下載和載入較大的資料集,如 真實世界資料集 章節中所述。

載入器和擷取器函數都會傳回一個 Bunch 物件,其中至少包含兩個項目:一個形狀為 n_samples * n_features 的陣列,索引鍵為 data (除了 20newsgroups 外),以及一個長度為 n_samples 的 numpy 陣列,其中包含目標值,索引鍵為 target

Bunch 物件是一個字典,它將其鍵公開為屬性。有關 Bunch 物件的更多資訊,請參閱 Bunch

幾乎所有這些函數也可以透過將 return_X_y 參數設定為 True,將輸出限制為僅包含資料和目標的元組。

這些資料集在其 DESCR 屬性中也包含完整的描述,並且有些資料集包含 feature_namestarget_names。請參閱下面的資料集描述以了解詳細資訊。

資料集生成函數。它們可用於生成受控的合成資料集,如 生成的資料集 章節中所述。

這些函數會傳回一個元組 (X, y),其中包含一個 n_samples * n_features numpy 陣列 X 和一個長度為 n_samples 的陣列,其中包含目標 y

此外,還有其他工具可以載入其他格式或來自其他位置的資料集,如 載入其他資料集 章節中所述。