fetch_lfw_pairs#

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[source]#

載入「野生環境人臉」(LFW)配對資料集(分類)。

如有需要,將其下載。

類別

2

樣本總數

13233

維度

5828

特徵

實數,介於 0 到 255 之間

在官方的README.txt中,此任務被描述為「受限」任務。由於我不確定如何正確實作「非受限」變體,因此我暫時將其保留為不支援。

原始影像為 250 x 250 像素,但預設的切片和調整大小參數會將其縮減為 62 x 47。

請參閱使用者指南以了解更多資訊。

參數:
subset{‘train’, ‘test’, ‘10_folds’}, 預設值為 ‘train’

選擇要載入的資料集: ‘train’ 代表開發訓練集,‘test’ 代表開發測試集,而 ‘10_folds’ 代表官方評估集,該集合用於 10 折交叉驗證。

data_homestr 或路徑型,預設值為 None

指定資料集另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都會儲存在 ‘~/scikit_learn_data’ 子資料夾中。

funneledbool,預設值為 True

下載並使用資料集的漏斗狀變體。

resizefloat,預設值為 0.5

用於調整每張臉部圖片大小的比例。

colorbool,預設值為 False

保留 3 個 RGB 通道,而不是將它們平均為單個灰階通道。如果 color 為 True,則資料的形狀會比 color = False 時多一個維度。

slice_slice 元組,預設值為 (slice(70, 195), slice(78, 172))

提供自訂的 2D 切片 (高度,寬度) 以提取 jpeg 檔案的「感興趣」部分,並避免使用背景的統計相關性。

download_if_missingbool,預設值為 True

如果為 False,則當資料在本地不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。

n_retriesint,預設值為 3

遇到 HTTP 錯誤時的重試次數。

在版本 1.5 中新增。

delayfloat,預設值為 1.0

重試之間的秒數。

在版本 1.5 中新增。

回傳值:
dataBunch

類似字典的物件,具有以下屬性。

data形狀為 (2200, 5828) 的 ndarray。形狀取決於 subset

每一行對應於 2 張原始大小為 62 x 47 像素的攤平臉部影像。變更 slice_resizesubset 參數將會變更輸出形狀。

pairs形狀為 (2200, 2, 62, 47) 的 ndarray。形狀取決於 subset

每一行有 2 張臉部影像,對應於來自包含 5749 人的資料集中相同或不同的人。變更 slice_resizesubset 參數將會變更輸出形狀。

target形狀為 (2200,) 的 numpy 陣列。形狀取決於 subset

與每對影像相關聯的標籤。兩個標籤值為不同的人或同一個人。

target_names形狀為 (2,) 的 numpy 陣列

說明目標陣列的目標值。0 對應到「不同的人」,1 對應到「同一個人」。

DESCRstr

關於 Labeled Faces in the Wild (LFW) 資料集的說明。

範例

>>> from sklearn.datasets import fetch_lfw_pairs
>>> lfw_pairs_train = fetch_lfw_pairs(subset='train')
>>> list(lfw_pairs_train.target_names)
[np.str_('Different persons'), np.str_('Same person')]
>>> lfw_pairs_train.pairs.shape
(2200, 2, 62, 47)
>>> lfw_pairs_train.data.shape
(2200, 5828)
>>> lfw_pairs_train.target.shape
(2200,)