fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[來源]#

載入 covertype 資料集 (分類)。

如有必要,下載資料集。

類別

7

樣本總數

581012

維度

54

特徵

整數

使用者指南中閱讀更多資訊。

參數:
data_homestr 或 path-like,預設為 None

指定另一個下載和快取資料集的資料夾。預設情況下,所有 scikit-learn 資料都儲存在「~/scikit_learn_data」子資料夾中。

download_if_missingbool,預設為 True

如果為 False,則當資料在本地不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。

random_stateint、RandomState 實例或 None,預設為 None

決定資料集洗牌的隨機數產生。傳遞一個 int,以便在多次函數呼叫中產生可重複的輸出。請參閱詞彙表

shufflebool,預設為 False

是否對資料集進行洗牌。

return_X_ybool,預設為 False

如果為 True,則返回 (data.data, data.target),而不是 Bunch 物件。

在 0.20 版本中新增。

as_framebool,預設為 False

如果為 True,則資料為 pandas DataFrame,其中包含具有適當 dtype (數值) 的欄位。目標是 pandas DataFrame 或 Series,取決於目標欄位的數量。如果 return_X_y 為 True,則 (data, target) 將會是 pandas DataFrames 或 Series,如下所述。

在 0.24 版本中新增。

n_retriesint,預設為 3

遇到 HTTP 錯誤時的重試次數。

在 1.5 版本中新增。

delayfloat,預設為 1.0

重試之間的秒數。

在 1.5 版本中新增。

返回:
datasetBunch

類似字典的物件,具有以下屬性。

data形狀為 (581012, 54) 的 ndarray

每一列對應於資料集中的 54 個特徵。

target形狀為 (581012,) 的 ndarray

每個值對應於 7 種森林覆蓋類型之一,其值介於 1 到 7 之間。

frame形狀為 (581012, 55) 的資料框

僅當 as_frame=True 時才會出現。包含 datatarget

DESCRstr

森林覆蓋類型資料集的描述。

feature_nameslist

資料集欄位的名稱。

target_names: list

目標欄位的名稱。

(data, target)如果 return_X_y 為 True 則為 tuple

由兩個 ndarray 組成的元組。第一個包含形狀為 (n_samples, n_features) 的二維陣列,其中每一列代表一個樣本,每一欄代表特徵。第二個 ndarray 的形狀為 (n_samples,),其中包含目標樣本。

在 0.20 版本中新增。

範例

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']