提取 rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[來源]#

載入 RCV1 多標籤資料集（分類）。

如有必要，則下載。

版本：RCV1-v2，向量，完整集合，主題多標籤。

類別	103
樣本總數	804414
維度	47236
特徵	實數，介於 0 和 1 之間

請參閱使用者指南以了解更多資訊。

於 0.17 版本新增。

參數:

data_home字串或類路徑，預設值=None: 指定資料集的另一個下載和快取資料夾。預設情況下，所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。
subset{'train', 'test', 'all'}，預設值='all': 選擇要載入的資料集：'train' 表示訓練集（23149 個樣本），'test' 表示測試集（781265 個樣本），'all' 表示兩者，如果 shuffle 為 False，則訓練樣本優先。這遵循官方 LYRL2004 時間順序分割。
download_if_missing布林值，預設值=True: 如果為 False，則當資料在本機不可用時，會引發 OSError，而不是嘗試從來源網站下載資料。
random_state整數、RandomState 實例或 None，預設值=None: 決定資料集洗牌的隨機數生成。傳遞一個整數以在多個函式呼叫中產生可重複的輸出。請參閱術語表。
shuffle布林值，預設值=False: 是否打亂資料集。
return_X_y布林值，預設值=False: 如果為 True，則會回傳 (dataset.data, dataset.target) 而不是 Bunch 物件。請參閱下文，以取得關於 dataset.data 和 dataset.target 物件的更多資訊。

於 0.20 版本新增。
n_retries整數，預設值=3: 遇到 HTTP 錯誤時的重試次數。

於 1.5 版本新增。
delay浮點數，預設值=1.0: 重試之間間隔的秒數。

於 1.5 版本新增。

回傳值:

datasetBunch

類似字典的物件。僅當 return_X_y 為 False 時才回傳。dataset 具有以下屬性

data形狀為 (804414, 47236) 的稀疏矩陣，dtype=np.float64
陣列具有 0.16% 的非零值。將為 CSR 格式。
target形狀為 (804414, 103) 的稀疏矩陣，dtype=np.uint8
每個樣本在其類別中都有值 1，在其他類別中則為 0。陣列具有 3.15% 的非零值。將為 CSR 格式。
sample_id形狀為 (804414,) 的 ndarray，dtype=np.uint32,
每個樣本的識別號碼，與 dataset.data 中的順序相同。
target_names形狀為 (103,) 的 ndarray，dtype=object
每個目標（RCV1 主題）的名稱，與 dataset.target 中的順序相同。
DESCR字串
RCV1 資料集的描述。

(data, target)元組

由 dataset.data 和 dataset.target 組成的元組，如上所述。僅當 return_X_y 為 True 時才回傳。

於 0.20 版本新增。

範例

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)