fetch_kddcup99#

sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[原始碼]#

載入 kddcup99 資料集(分類)。

如有需要,則下載。

類別

23

總樣本數

4898431

維度

41

特徵

離散 (int) 或連續 (float)

請在使用者指南中閱讀更多內容。

於版本 0.18 新增。

參數:
subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, default=None

傳回 kddcup 99 的相應經典子集。如果為 None,則傳回整個 kddcup 99 資料集。

data_homestr 或類路徑, default=None

指定資料集的其他下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。

於版本 0.19 新增。

shufflebool, default=False

是否洗牌資料集。

random_stateint、RandomState 實例或 None,default=None

決定資料集洗牌的隨機數生成,以及在 subset='SA' 時異常樣本的選擇。傳遞 int 以便在多個函數呼叫中獲得可重複的輸出。請參閱詞彙表

percent10bool, default=True

是否僅載入 10% 的資料。

download_if_missingbool, default=True

如果為 False,則在資料在本機不可用時引發 OSError,而不是嘗試從來源網站下載資料。

return_X_ybool, default=False

如果為 True,則傳回 (data, target) 而不是 Bunch 物件。請參閱下文,了解有關 datatarget 物件的更多資訊。

於版本 0.20 新增。

as_framebool, default=False

如果 True,則會為傳回的 Bunch 物件中的 datatarget 物件傳回 pandas DataFrame;Bunch 傳回物件也會有 frame 成員。

於版本 0.24 新增。

n_retriesint, default=3

遇到 HTTP 錯誤時的重試次數。

於版本 1.5 新增。

delayfloat, default=1.0

重試之間的秒數。

於版本 1.5 新增。

傳回:
dataBunch

類字典物件,具有以下屬性。

data形狀為 (494021, 41) 的 {ndarray, dataframe}

要學習的資料矩陣。如果 as_frame=True,則 data 將會是 pandas DataFrame。

target形狀為 (494021,) 的 {ndarray, series}

每個樣本的迴歸目標。如果 as_frame=True,則 target 將會是 pandas Series。

frame形狀為 (494021, 42) 的 dataframe

僅在 as_frame=True 時存在。包含 datatarget

DESCRstr

資料集的完整描述。

feature_nameslist

資料集欄位的名稱

target_names: list

目標欄位的名稱

(data, target)如果 return_X_y 為 True,則為 tuple

一個由兩個 ndarray 組成的 tuple。第一個包含形狀為 (n_samples, n_features) 的 2D 陣列,每一列代表一個樣本,每一欄代表特徵。第二個 ndarray 的形狀為 (n_samples,),包含目標樣本。

於版本 0.20 新增。