fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[來源]#

載入 covertype 資料集 (分類)。

如有必要，下載資料集。

類別	7
樣本總數	581012
維度	54
特徵	整數

在使用者指南中閱讀更多資訊。

參數:

data_homestr 或 path-like，預設為 None: 指定另一個下載和快取資料集的資料夾。預設情況下，所有 scikit-learn 資料都儲存在「~/scikit_learn_data」子資料夾中。
download_if_missingbool，預設為 True: 如果為 False，則當資料在本地不可用時，會引發 OSError，而不是嘗試從來源網站下載資料。
random_stateint、RandomState 實例或 None，預設為 None: 決定資料集洗牌的隨機數產生。傳遞一個 int，以便在多次函數呼叫中產生可重複的輸出。請參閱詞彙表。
shufflebool，預設為 False: 是否對資料集進行洗牌。
return_X_ybool，預設為 False: 如果為 True，則返回 (data.data, data.target)，而不是 Bunch 物件。

在 0.20 版本中新增。
as_framebool，預設為 False: 如果為 True，則資料為 pandas DataFrame，其中包含具有適當 dtype (數值) 的欄位。目標是 pandas DataFrame 或 Series，取決於目標欄位的數量。如果 return_X_y 為 True，則 (data, target) 將會是 pandas DataFrames 或 Series，如下所述。

在 0.24 版本中新增。
n_retriesint，預設為 3: 遇到 HTTP 錯誤時的重試次數。

在 1.5 版本中新增。
delayfloat，預設為 1.0: 重試之間的秒數。

在 1.5 版本中新增。

返回:

datasetBunch

類似字典的物件，具有以下屬性。

data形狀為 (581012, 54) 的 ndarray: 每一列對應於資料集中的 54 個特徵。
target形狀為 (581012,) 的 ndarray: 每個值對應於 7 種森林覆蓋類型之一，其值介於 1 到 7 之間。
frame形狀為 (581012, 55) 的資料框: 僅當 as_frame=True 時才會出現。包含 data 和 target。
DESCRstr: 森林覆蓋類型資料集的描述。
feature_nameslist: 資料集欄位的名稱。
target_names: list: 目標欄位的名稱。

(data, target)如果 return_X_y 為 True 則為 tuple

由兩個 ndarray 組成的元組。第一個包含形狀為 (n_samples, n_features) 的二維陣列，其中每一列代表一個樣本，每一欄代表特徵。第二個 ndarray 的形狀為 (n_samples,)，其中包含目標樣本。

在 0.20 版本中新增。

範例

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']

範例展示#

scikit-learn 0.24 的版本重點

使用多項式核近似的可擴展學習

離群值檢測估計器的評估