fetch_lfw_pairs#
- sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[source]#
載入「野生環境人臉」(LFW)配對資料集(分類)。
如有需要,將其下載。
類別
2
樣本總數
13233
維度
5828
特徵
實數,介於 0 到 255 之間
在官方的README.txt中,此任務被描述為「受限」任務。由於我不確定如何正確實作「非受限」變體,因此我暫時將其保留為不支援。
原始影像為 250 x 250 像素,但預設的切片和調整大小參數會將其縮減為 62 x 47。
請參閱使用者指南以了解更多資訊。
- 參數:
- subset{‘train’, ‘test’, ‘10_folds’}, 預設值為 ‘train’
選擇要載入的資料集: ‘train’ 代表開發訓練集,‘test’ 代表開發測試集,而 ‘10_folds’ 代表官方評估集,該集合用於 10 折交叉驗證。
- data_homestr 或路徑型,預設值為 None
指定資料集另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都會儲存在 ‘~/scikit_learn_data’ 子資料夾中。
- funneledbool,預設值為 True
下載並使用資料集的漏斗狀變體。
- resizefloat,預設值為 0.5
用於調整每張臉部圖片大小的比例。
- colorbool,預設值為 False
保留 3 個 RGB 通道,而不是將它們平均為單個灰階通道。如果 color 為 True,則資料的形狀會比 color = False 時多一個維度。
- slice_slice 元組,預設值為 (slice(70, 195), slice(78, 172))
提供自訂的 2D 切片 (高度,寬度) 以提取 jpeg 檔案的「感興趣」部分,並避免使用背景的統計相關性。
- download_if_missingbool,預設值為 True
如果為 False,則當資料在本地不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。
- n_retriesint,預設值為 3
遇到 HTTP 錯誤時的重試次數。
在版本 1.5 中新增。
- delayfloat,預設值為 1.0
重試之間的秒數。
在版本 1.5 中新增。
- 回傳值:
- data
Bunch
類似字典的物件,具有以下屬性。
- data形狀為 (2200, 5828) 的 ndarray。形狀取決於
subset
。 每一行對應於 2 張原始大小為 62 x 47 像素的攤平臉部影像。變更
slice_
、resize
或subset
參數將會變更輸出形狀。- pairs形狀為 (2200, 2, 62, 47) 的 ndarray。形狀取決於
subset
每一行有 2 張臉部影像,對應於來自包含 5749 人的資料集中相同或不同的人。變更
slice_
、resize
或subset
參數將會變更輸出形狀。- target形狀為 (2200,) 的 numpy 陣列。形狀取決於
subset
。 與每對影像相關聯的標籤。兩個標籤值為不同的人或同一個人。
- target_names形狀為 (2,) 的 numpy 陣列
說明目標陣列的目標值。0 對應到「不同的人」,1 對應到「同一個人」。
- DESCRstr
關於 Labeled Faces in the Wild (LFW) 資料集的說明。
- data形狀為 (2200, 5828) 的 ndarray。形狀取決於
- data
範例
>>> from sklearn.datasets import fetch_lfw_pairs >>> lfw_pairs_train = fetch_lfw_pairs(subset='train') >>> list(lfw_pairs_train.target_names) [np.str_('Different persons'), np.str_('Same person')] >>> lfw_pairs_train.pairs.shape (2200, 2, 62, 47) >>> lfw_pairs_train.data.shape (2200, 5828) >>> lfw_pairs_train.target.shape (2200,)