提取 rcv1#
- sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[來源]#
載入 RCV1 多標籤資料集(分類)。
如有必要,則下載。
版本:RCV1-v2,向量,完整集合,主題多標籤。
類別
103
樣本總數
804414
維度
47236
特徵
實數,介於 0 和 1 之間
請參閱使用者指南以了解更多資訊。
於 0.17 版本新增。
- 參數:
- data_home字串或類路徑,預設值=None
指定資料集的另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。
- subset{'train', 'test', 'all'},預設值='all'
選擇要載入的資料集:'train' 表示訓練集(23149 個樣本),'test' 表示測試集(781265 個樣本),'all' 表示兩者,如果 shuffle 為 False,則訓練樣本優先。這遵循官方 LYRL2004 時間順序分割。
- download_if_missing布林值,預設值=True
如果為 False,則當資料在本機不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。
- random_state整數、RandomState 實例或 None,預設值=None
決定資料集洗牌的隨機數生成。傳遞一個整數以在多個函式呼叫中產生可重複的輸出。請參閱術語表。
- shuffle布林值,預設值=False
是否打亂資料集。
- return_X_y布林值,預設值=False
如果為 True,則會回傳
(dataset.data, dataset.target)
而不是 Bunch 物件。請參閱下文,以取得關於dataset.data
和dataset.target
物件的更多資訊。於 0.20 版本新增。
- n_retries整數,預設值=3
遇到 HTTP 錯誤時的重試次數。
於 1.5 版本新增。
- delay浮點數,預設值=1.0
重試之間間隔的秒數。
於 1.5 版本新增。
- 回傳值:
- dataset
Bunch
類似字典的物件。僅當
return_X_y
為 False 時才回傳。dataset
具有以下屬性- data形狀為 (804414, 47236) 的稀疏矩陣,dtype=np.float64
陣列具有 0.16% 的非零值。將為 CSR 格式。
- target形狀為 (804414, 103) 的稀疏矩陣,dtype=np.uint8
每個樣本在其類別中都有值 1,在其他類別中則為 0。陣列具有 3.15% 的非零值。將為 CSR 格式。
- sample_id形狀為 (804414,) 的 ndarray,dtype=np.uint32,
每個樣本的識別號碼,與 dataset.data 中的順序相同。
- target_names形狀為 (103,) 的 ndarray,dtype=object
每個目標(RCV1 主題)的名稱,與 dataset.target 中的順序相同。
- DESCR字串
RCV1 資料集的描述。
- (data, target)元組
由
dataset.data
和dataset.target
組成的元組,如上所述。僅當return_X_y
為 True 時才回傳。於 0.20 版本新增。
- dataset
範例
>>> from sklearn.datasets import fetch_rcv1 >>> rcv1 = fetch_rcv1() >>> rcv1.data.shape (804414, 47236) >>> rcv1.target.shape (804414, 103)