SelectFpr#

class sklearn.feature_selection.SelectFpr(score_func=<function f_classif>, *, alpha=0.05)[原始碼]#

篩選器：基於 FPR 測試選擇 alpha 值以下的 p 值。

FPR 測試代表偽陽性率測試。它控制偽陽性偵測的總量。

請在使用者指南中閱讀更多資訊。

參數:

score_func可呼叫物件，預設值為 f_classif: 接受兩個陣列 X 和 y，並回傳一對陣列 (scores, pvalues) 的函式。預設值為 f_classif (請參閱下方「另請參閱」)。預設函式僅適用於分類任務。
alpha浮點數，預設值為 5e-2: 會選取 p 值小於 alpha 的特徵。

屬性:

scores_形狀為 (n_features,) 的類陣列: 特徵的分數。
pvalues_形狀為 (n_features,) 的類陣列: 特徵分數的 p 值。
n_features_in_整數: 在 fit 期間看到的特徵數量。

於 0.24 版本新增。
feature_names_in_形狀為 (n_features_in_,) 的 ndarray: 在 fit 期間看到的特徵名稱。僅當 X 具有全為字串的特徵名稱時才會定義。

於 1.0 版本新增。

另請參閱

f_classif: f_classif 分類任務的標籤/特徵之間的 ANOVA F 值。
chi2: chi2 分類任務的非負特徵的卡方統計量。
mutual_info_classif: mutual_info_classif 離散目標的互資訊。
f_regression: f_regression 迴歸任務的標籤/特徵之間的 F 值。
mutual_info_regression: mutual_info_regression 連續目標的互資訊。
SelectPercentile: SelectPercentile 根據最高分數的百分位數選擇特徵。
SelectKBest: SelectKBest 根據 k 個最高分數選擇特徵。
SelectFdr: SelectFdr 根據預估的錯誤發現率選擇特徵。
SelectFwe: SelectFwe 根據家族錯誤率選擇特徵。
GenericUnivariateSelect: GenericUnivariateSelect 具有可設定模式的單變數特徵選擇器。

範例

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.feature_selection import SelectFpr, chi2
>>> X, y = load_breast_cancer(return_X_y=True)
>>> X.shape
(569, 30)
>>> X_new = SelectFpr(chi2, alpha=0.01).fit_transform(X, y)
>>> X_new.shape
(569, 16)

fit(X, y=None)[原始碼]#

在 (X, y) 上執行評分函式，並取得適當的特徵。

參數:

X形狀為 (n_samples, n_features) 的類陣列: 訓練輸入範例。
y形狀為 (n_samples,) 或 None 的類陣列: 目標值（分類中的類別標籤，迴歸中的實數）。如果選擇器是無監督的，則 y 可以設定為 None。

回傳:

self物件: 回傳執行個體本身。

fit_transform(X, y=None, **fit_params)[原始碼]#

將資料擬合，然後轉換它。

將轉換器擬合到具有可選參數 fit_params 的 X 和 y，並回傳 X 的轉換版本。

參數:

X形狀為 (n_samples, n_features) 的類陣列: 輸入範例。
y形狀為 (n_samples,) 或 (n_samples, n_outputs) 的類陣列，預設值為 None: 目標值（無監督轉換為 None）。
**fit_params字典: 額外的擬合參數。

回傳:

X_new形狀為 (n_samples, n_features_new) 的 ndarray 陣列: 轉換後的陣列。

get_feature_names_out(input_features=None)[原始碼]#

根據選取的特徵遮罩特徵名稱。

參數:

input_features字串或 None 的類陣列，預設值為 None

輸入特徵。

如果 input_features 為 None，則 feature_names_in_ 會用作輸入特徵名稱。如果未定義 feature_names_in_，則會產生下列輸入特徵名稱：["x0", "x1", ..., "x(n_features_in_ - 1)"]。
如果 input_features 是類陣列，則如果定義了 feature_names_in_，則 input_features 必須與 feature_names_in_ 相符。

回傳:

feature_names_out字串物件的 ndarray: 轉換後的特徵名稱。

get_metadata_routing()[原始碼]#

取得此物件的中繼資料路由。

請檢查使用者指南，了解路由機制如何運作。

回傳:

routingMetadataRequest: 一個封裝路由資訊的 MetadataRequest。

get_params(deep=True)[原始碼]#

取得此估算器的參數。

參數:

deep布林值，預設值為 True: 若為 True，將會回傳此估算器及其包含的子物件（也是估算器）的參數。

回傳:

paramsdict: 參數名稱對應到它們的值。

get_support(indices=False)[原始碼]#

取得被選取特徵的遮罩或整數索引。

參數:

indicesbool，預設值 = False: 若為 True，回傳值會是一個整數陣列，而非布林遮罩。

回傳:

supportarray: 一個索引，用於從特徵向量中選取保留的特徵。若 indices 為 False，這是一個形狀為 [# 輸入特徵] 的布林陣列，其中元素為 True 代表其對應的特徵被選取保留。若 indices 為 True，這是一個形狀為 [# 輸出特徵] 的整數陣列，其值為輸入特徵向量的索引。

inverse_transform(X)[原始碼]#

反轉轉換操作。

參數:

X形狀為 [n_samples, n_selected_features] 的陣列: 輸入樣本。

回傳:

X_r形狀為 [n_samples, n_original_features] 的陣列: X，其中已插入零的列，這些列是經過 transform 移除的特徵位置。

set_output(*, transform=None)[原始碼]#

設定輸出容器。

請參考 Introducing the set_output API 範例，了解如何使用此 API。

參數:

transform{“default”, “pandas”, “polars”}, 預設值=None

設定 transform 和 fit_transform 的輸出。

"default": 轉換器的預設輸出格式
"pandas": DataFrame 輸出
"polars": Polars 輸出
None: 轉換設定不變

1.4 版本新增: 新增了 "polars" 選項。

回傳:

self估算器實例: 估算器實例。

set_params(**params)[原始碼]#

設定此估算器的參數。

此方法適用於簡單的估算器，以及巢狀物件（例如 Pipeline）。後者具有 <component>__<parameter> 形式的參數，因此可以更新巢狀物件的每個元件。

參數:

**paramsdict: 估算器參數。

回傳:

self估算器實例: 估算器實例。

transform(X)[原始碼]#

將 X 縮減為選取的特徵。

參數:

X形狀為 [n_samples, n_features] 的陣列: 輸入樣本。

回傳:

X_r形狀為 [n_samples, n_selected_features] 的陣列: 只包含選取特徵的輸入樣本。