fetch_covtype#
- sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[來源]#
載入 covertype 資料集 (分類)。
如有必要,下載資料集。
類別
7
樣本總數
581012
維度
54
特徵
整數
在使用者指南中閱讀更多資訊。
- 參數:
- data_homestr 或 path-like,預設為 None
指定另一個下載和快取資料集的資料夾。預設情況下,所有 scikit-learn 資料都儲存在「~/scikit_learn_data」子資料夾中。
- download_if_missingbool,預設為 True
如果為 False,則當資料在本地不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。
- random_stateint、RandomState 實例或 None,預設為 None
決定資料集洗牌的隨機數產生。傳遞一個 int,以便在多次函數呼叫中產生可重複的輸出。請參閱詞彙表。
- shufflebool,預設為 False
是否對資料集進行洗牌。
- return_X_ybool,預設為 False
如果為 True,則返回
(data.data, data.target)
,而不是 Bunch 物件。在 0.20 版本中新增。
- as_framebool,預設為 False
如果為 True,則資料為 pandas DataFrame,其中包含具有適當 dtype (數值) 的欄位。目標是 pandas DataFrame 或 Series,取決於目標欄位的數量。如果
return_X_y
為 True,則 (data
,target
) 將會是 pandas DataFrames 或 Series,如下所述。在 0.24 版本中新增。
- n_retriesint,預設為 3
遇到 HTTP 錯誤時的重試次數。
在 1.5 版本中新增。
- delayfloat,預設為 1.0
重試之間的秒數。
在 1.5 版本中新增。
- 返回:
- dataset
Bunch
類似字典的物件,具有以下屬性。
- data形狀為 (581012, 54) 的 ndarray
每一列對應於資料集中的 54 個特徵。
- target形狀為 (581012,) 的 ndarray
每個值對應於 7 種森林覆蓋類型之一,其值介於 1 到 7 之間。
- frame形狀為 (581012, 55) 的資料框
僅當
as_frame=True
時才會出現。包含data
和target
。- DESCRstr
森林覆蓋類型資料集的描述。
- feature_nameslist
資料集欄位的名稱。
- target_names: list
目標欄位的名稱。
- (data, target)如果
return_X_y
為 True 則為 tuple 由兩個 ndarray 組成的元組。第一個包含形狀為 (n_samples, n_features) 的二維陣列,其中每一列代表一個樣本,每一欄代表特徵。第二個 ndarray 的形狀為 (n_samples,),其中包含目標樣本。
在 0.20 版本中新增。
- dataset
範例
>>> from sklearn.datasets import fetch_covtype >>> cov_type = fetch_covtype() >>> cov_type.data.shape (581012, 54) >>> cov_type.target.shape (581012,) >>> # Let's check the 4 first feature names >>> cov_type.feature_names[:4] ['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']