fetch_lfw_pairs#

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[source]#

載入「野生環境人臉」（LFW）配對資料集（分類）。

如有需要，將其下載。

類別	2
樣本總數	13233
維度	5828
特徵	實數，介於 0 到 255 之間

在官方的README.txt中，此任務被描述為「受限」任務。由於我不確定如何正確實作「非受限」變體，因此我暫時將其保留為不支援。

原始影像為 250 x 250 像素，但預設的切片和調整大小參數會將其縮減為 62 x 47。

請參閱使用者指南以了解更多資訊。

參數:

subset{‘train’, ‘test’, ‘10_folds’}, 預設值為 ‘train’: 選擇要載入的資料集： ‘train’ 代表開發訓練集，‘test’ 代表開發測試集，而 ‘10_folds’ 代表官方評估集，該集合用於 10 折交叉驗證。
data_homestr 或路徑型，預設值為 None: 指定資料集另一個下載和快取資料夾。預設情況下，所有 scikit-learn 資料都會儲存在 ‘~/scikit_learn_data’ 子資料夾中。
funneledbool，預設值為 True: 下載並使用資料集的漏斗狀變體。
resizefloat，預設值為 0.5: 用於調整每張臉部圖片大小的比例。
colorbool，預設值為 False: 保留 3 個 RGB 通道，而不是將它們平均為單個灰階通道。如果 color 為 True，則資料的形狀會比 color = False 時多一個維度。
slice_slice 元組，預設值為 (slice(70, 195), slice(78, 172)): 提供自訂的 2D 切片 (高度，寬度) 以提取 jpeg 檔案的「感興趣」部分，並避免使用背景的統計相關性。
download_if_missingbool，預設值為 True: 如果為 False，則當資料在本地不可用時，會引發 OSError，而不是嘗試從來源網站下載資料。
n_retriesint，預設值為 3: 遇到 HTTP 錯誤時的重試次數。

在版本 1.5 中新增。
delayfloat，預設值為 1.0: 重試之間的秒數。

在版本 1.5 中新增。

回傳值:

dataBunch

類似字典的物件，具有以下屬性。

data形狀為 (2200, 5828) 的 ndarray。形狀取決於 subset。: 每一行對應於 2 張原始大小為 62 x 47 像素的攤平臉部影像。變更 slice_、resize 或 subset 參數將會變更輸出形狀。
pairs形狀為 (2200, 2, 62, 47) 的 ndarray。形狀取決於 subset: 每一行有 2 張臉部影像，對應於來自包含 5749 人的資料集中相同或不同的人。變更 slice_、resize 或 subset 參數將會變更輸出形狀。
target形狀為 (2200,) 的 numpy 陣列。形狀取決於 subset。: 與每對影像相關聯的標籤。兩個標籤值為不同的人或同一個人。
target_names形狀為 (2,) 的 numpy 陣列: 說明目標陣列的目標值。0 對應到「不同的人」，1 對應到「同一個人」。
DESCRstr: 關於 Labeled Faces in the Wild (LFW) 資料集的說明。

範例

>>> from sklearn.datasets import fetch_lfw_pairs
>>> lfw_pairs_train = fetch_lfw_pairs(subset='train')
>>> list(lfw_pairs_train.target_names)
[np.str_('Different persons'), np.str_('Same person')]
>>> lfw_pairs_train.pairs.shape
(2200, 2, 62, 47)
>>> lfw_pairs_train.data.shape
(2200, 5828)
>>> lfw_pairs_train.target.shape
(2200,)