fetch_kddcup99#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[原始碼]#
載入 kddcup99 資料集(分類)。
如有需要,則下載。
類別
23
總樣本數
4898431
維度
41
特徵
離散 (int) 或連續 (float)
請在使用者指南中閱讀更多內容。
於版本 0.18 新增。
- 參數:
- subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, default=None
傳回 kddcup 99 的相應經典子集。如果為 None,則傳回整個 kddcup 99 資料集。
- data_homestr 或類路徑, default=None
指定資料集的其他下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。
於版本 0.19 新增。
- shufflebool, default=False
是否洗牌資料集。
- random_stateint、RandomState 實例或 None,default=None
決定資料集洗牌的隨機數生成,以及在
subset='SA'
時異常樣本的選擇。傳遞 int 以便在多個函數呼叫中獲得可重複的輸出。請參閱詞彙表。- percent10bool, default=True
是否僅載入 10% 的資料。
- download_if_missingbool, default=True
如果為 False,則在資料在本機不可用時引發 OSError,而不是嘗試從來源網站下載資料。
- return_X_ybool, default=False
如果為 True,則傳回
(data, target)
而不是 Bunch 物件。請參閱下文,了解有關data
和target
物件的更多資訊。於版本 0.20 新增。
- as_framebool, default=False
如果
True
,則會為傳回的Bunch
物件中的data
和target
物件傳回 pandas DataFrame;Bunch
傳回物件也會有frame
成員。於版本 0.24 新增。
- n_retriesint, default=3
遇到 HTTP 錯誤時的重試次數。
於版本 1.5 新增。
- delayfloat, default=1.0
重試之間的秒數。
於版本 1.5 新增。
- 傳回:
- data
Bunch
類字典物件,具有以下屬性。
- data形狀為 (494021, 41) 的 {ndarray, dataframe}
要學習的資料矩陣。如果
as_frame=True
,則data
將會是 pandas DataFrame。- target形狀為 (494021,) 的 {ndarray, series}
每個樣本的迴歸目標。如果
as_frame=True
,則target
將會是 pandas Series。- frame形狀為 (494021, 42) 的 dataframe
僅在
as_frame=True
時存在。包含data
和target
。- DESCRstr
資料集的完整描述。
- feature_nameslist
資料集欄位的名稱
- target_names: list
目標欄位的名稱
- (data, target)如果
return_X_y
為 True,則為 tuple 一個由兩個 ndarray 組成的 tuple。第一個包含形狀為 (n_samples, n_features) 的 2D 陣列,每一列代表一個樣本,每一欄代表特徵。第二個 ndarray 的形狀為 (n_samples,),包含目標樣本。
於版本 0.20 新增。
- data