MissingIndicator#

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[原始碼]#

用於遺失值的二元指標。

請注意，此元件通常不應在由轉換器和分類器組成的普通 Pipeline 中使用，而是可以使用 FeatureUnion 或 ColumnTransformer 來新增。

請參閱使用者指南以了解更多資訊。

在 0.20 版本中新增。

參數:

missing_valuesint、float、str、np.nan 或 None，預設值為 np.nan

遺失值的預留位置。所有出現的 missing_values 都會被填補。對於具有可為空整數 dtypes 且有遺失值的 pandas 資料框，missing_values 應設定為 np.nan，因為 pd.NA 會被轉換為 np.nan。

features{‘missing-only’, ‘all’}，預設值為 ‘missing-only’

指示器遮罩是否應表示所有或部分的特徵。

如果 'missing-only' (預設值)，則填補器遮罩將僅表示在擬合時包含缺失值的特徵。
如果 'all'，則填補器遮罩將表示所有特徵。

sparsebool 或 ‘auto’，預設值為 ‘auto’

填補器遮罩的格式應該是稀疏的還是密集的。

如果 'auto' (預設值)，則填補器遮罩將與輸入的類型相同。
如果 True，則填補器遮罩將為稀疏矩陣。
如果 False，則填補器遮罩將為 numpy 陣列。

error_on_newbool，預設值為 True

如果 True，當有在 fit 中沒有缺失值的特徵有缺失值時，transform 將會引發錯誤。這僅在 features='missing-only' 時適用。

屬性:

features_形狀為 (n_missing_features,) 或 (n_features,) 的 ndarray: 在呼叫 transform 時會回傳的特徵索引。它們在 fit 期間計算。如果 features='all'，則 features_ 等於 range(n_features)。
n_features_in_int: 在 fit 期間看到的特徵數量。

在 0.24 版本中新增。
feature_names_in_形狀為 (n_features_in_,) 的 ndarray: 在 fit 期間看到的特徵名稱。僅當 X 具有全部為字串的特徵名稱時才定義。

在 1.0 版本中新增。

另請參閱

SimpleImputer: 缺失值的單變數填補。
IterativeImputer: 缺失值的多變數填補。

範例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])

fit(X, y=None)[原始碼]#

在 X 上擬合轉換器。

參數:

X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}: 輸入資料，其中 n_samples 是樣本數，n_features 是特徵數。
y已忽略: 未使用，為符合 API 一致性而存在。

回傳值:

self物件: 已擬合的估計器。

fit_transform(X, y=None)[原始碼]#

為 X 產生缺失值指標。

參數:

X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}: 要完成的輸入資料。
y已忽略: 未使用，為符合 API 一致性而存在。

回傳值:

Xt形狀為 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩陣}: 輸入資料的缺失值指標。Xt 的資料類型將為布林值。

get_feature_names_out(input_features=None)[原始碼]#

取得轉換的輸出特徵名稱。

參數:

input_features字串或 None 的類陣列，預設值為 None

輸入特徵。

如果 input_features 為 None，則 feature_names_in_ 會被當作輸入特徵名稱。如果 feature_names_in_ 未定義，則會產生以下輸入特徵名稱： ["x0", "x1", ..., "x(n_features_in_ - 1)"]。
如果 input_features 為類陣列，則如果定義了 feature_names_in_，input_features 必須與 feature_names_in_ 相符。

回傳值:

feature_names_out字串物件的 ndarray: 轉換後的特徵名稱。

get_metadata_routing()[原始碼]#

取得此物件的中繼資料路由。

請查看關於路由機制如何運作的使用者指南。

回傳值:

routingMetadataRequest: 封裝路由資訊的 MetadataRequest。

get_params(deep=True)[原始碼]#

取得此估計器的參數。

參數:

deepbool，預設值為 True: 如果為 True，將會回傳此估算器及其包含的子物件（也是估算器）的參數。

回傳值:

paramsdict: 參數名稱對應到它們的值。

set_output(*, transform=None)[原始碼]#

設定輸出容器。

請參閱介紹 set_output API 以瞭解如何使用此 API 的範例。

參數:

transform{“default”, “pandas”, “polars”}, default=None

設定 transform 和 fit_transform 的輸出格式。

"default"：轉換器的預設輸出格式
"pandas"：DataFrame 輸出
"polars"：Polars 輸出
None：轉換設定保持不變

在版本 1.4 中新增：增加了 "polars" 選項。

回傳值:

self估算器實例: 估算器實例。

set_params(**params)[原始碼]#

設定此估算器的參數。

此方法適用於簡單的估算器以及巢狀物件（例如 Pipeline）。後者具有 <component>__<parameter> 形式的參數，因此可以更新巢狀物件的每個組件。

參數:

**paramsdict: 估算器參數。

回傳值:

self估算器實例: 估算器實例。

transform(X)[原始碼]#

為 X 產生缺失值指標。

參數:

X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}: 要完成的輸入資料。

回傳值:

Xt形狀為 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩陣}: 輸入資料的缺失值指標。Xt 的資料類型將為布林值。