提取 rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[來源]#

載入 RCV1 多標籤資料集(分類)。

如有必要,則下載。

版本:RCV1-v2,向量,完整集合,主題多標籤。

類別

103

樣本總數

804414

維度

47236

特徵

實數,介於 0 和 1 之間

請參閱使用者指南以了解更多資訊。

於 0.17 版本新增。

參數:
data_home字串或類路徑,預設值=None

指定資料集的另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。

subset{'train', 'test', 'all'},預設值='all'

選擇要載入的資料集:'train' 表示訓練集(23149 個樣本),'test' 表示測試集(781265 個樣本),'all' 表示兩者,如果 shuffle 為 False,則訓練樣本優先。這遵循官方 LYRL2004 時間順序分割。

download_if_missing布林值,預設值=True

如果為 False,則當資料在本機不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。

random_state整數、RandomState 實例或 None,預設值=None

決定資料集洗牌的隨機數生成。傳遞一個整數以在多個函式呼叫中產生可重複的輸出。請參閱術語表

shuffle布林值,預設值=False

是否打亂資料集。

return_X_y布林值,預設值=False

如果為 True,則會回傳 (dataset.data, dataset.target) 而不是 Bunch 物件。請參閱下文,以取得關於 dataset.datadataset.target 物件的更多資訊。

於 0.20 版本新增。

n_retries整數,預設值=3

遇到 HTTP 錯誤時的重試次數。

於 1.5 版本新增。

delay浮點數,預設值=1.0

重試之間間隔的秒數。

於 1.5 版本新增。

回傳值:
datasetBunch

類似字典的物件。僅當 return_X_y 為 False 時才回傳。dataset 具有以下屬性

  • data形狀為 (804414, 47236) 的稀疏矩陣,dtype=np.float64

    陣列具有 0.16% 的非零值。將為 CSR 格式。

  • target形狀為 (804414, 103) 的稀疏矩陣,dtype=np.uint8

    每個樣本在其類別中都有值 1,在其他類別中則為 0。陣列具有 3.15% 的非零值。將為 CSR 格式。

  • sample_id形狀為 (804414,) 的 ndarray,dtype=np.uint32,

    每個樣本的識別號碼,與 dataset.data 中的順序相同。

  • target_names形狀為 (103,) 的 ndarray,dtype=object

    每個目標(RCV1 主題)的名稱,與 dataset.target 中的順序相同。

  • DESCR字串

    RCV1 資料集的描述。

(data, target)元組

dataset.datadataset.target 組成的元組,如上所述。僅當 return_X_y 為 True 時才回傳。

於 0.20 版本新增。

範例

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)