MissingIndicator#

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[原始碼]#

用於遺失值的二元指標。

請注意,此元件通常不應在由轉換器和分類器組成的普通 Pipeline 中使用,而是可以使用 FeatureUnionColumnTransformer 來新增。

請參閱 使用者指南 以了解更多資訊。

在 0.20 版本中新增。

參數:
missing_valuesint、float、str、np.nan 或 None,預設值為 np.nan

遺失值的預留位置。所有出現的 missing_values 都會被填補。對於具有可為空整數 dtypes 且有遺失值的 pandas 資料框,missing_values 應設定為 np.nan,因為 pd.NA 會被轉換為 np.nan

features{‘missing-only’, ‘all’},預設值為 ‘missing-only’

指示器遮罩是否應表示所有或部分的特徵。

  • 如果 'missing-only' (預設值),則填補器遮罩將僅表示在擬合時包含缺失值的特徵。

  • 如果 'all',則填補器遮罩將表示所有特徵。

sparsebool 或 ‘auto’,預設值為 ‘auto’

填補器遮罩的格式應該是稀疏的還是密集的。

  • 如果 'auto' (預設值),則填補器遮罩將與輸入的類型相同。

  • 如果 True,則填補器遮罩將為稀疏矩陣。

  • 如果 False,則填補器遮罩將為 numpy 陣列。

error_on_newbool,預設值為 True

如果 True,當有在 fit 中沒有缺失值的特徵有缺失值時,transform 將會引發錯誤。這僅在 features='missing-only' 時適用。

屬性:
features_形狀為 (n_missing_features,) 或 (n_features,) 的 ndarray

在呼叫 transform 時會回傳的特徵索引。它們在 fit 期間計算。如果 features='all',則 features_ 等於 range(n_features)

n_features_in_int

fit 期間看到的特徵數量。

在 0.24 版本中新增。

feature_names_in_形狀為 (n_features_in_,) 的 ndarray

fit 期間看到的特徵名稱。僅當 X 具有全部為字串的特徵名稱時才定義。

在 1.0 版本中新增。

另請參閱

SimpleImputer

缺失值的單變數填補。

IterativeImputer

缺失值的多變數填補。

範例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])
fit(X, y=None)[原始碼]#

X 上擬合轉換器。

參數:
X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}

輸入資料,其中 n_samples 是樣本數,n_features 是特徵數。

y已忽略

未使用,為符合 API 一致性而存在。

回傳值:
self物件

已擬合的估計器。

fit_transform(X, y=None)[原始碼]#

X 產生缺失值指標。

參數:
X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}

要完成的輸入資料。

y已忽略

未使用,為符合 API 一致性而存在。

回傳值:
Xt形狀為 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩陣}

輸入資料的缺失值指標。Xt 的資料類型將為布林值。

get_feature_names_out(input_features=None)[原始碼]#

取得轉換的輸出特徵名稱。

參數:
input_features字串或 None 的類陣列,預設值為 None

輸入特徵。

  • 如果 input_featuresNone,則 feature_names_in_ 會被當作輸入特徵名稱。如果 feature_names_in_ 未定義,則會產生以下輸入特徵名稱: ["x0", "x1", ..., "x(n_features_in_ - 1)"]

  • 如果 input_features 為類陣列,則如果定義了 feature_names_in_input_features 必須與 feature_names_in_ 相符。

回傳值:
feature_names_out字串物件的 ndarray

轉換後的特徵名稱。

get_metadata_routing()[原始碼]#

取得此物件的中繼資料路由。

請查看關於路由機制如何運作的使用者指南

回傳值:
routingMetadataRequest

封裝路由資訊的 MetadataRequest

get_params(deep=True)[原始碼]#

取得此估計器的參數。

參數:
deepbool,預設值為 True

如果為 True,將會回傳此估算器及其包含的子物件(也是估算器)的參數。

回傳值:
paramsdict

參數名稱對應到它們的值。

set_output(*, transform=None)[原始碼]#

設定輸出容器。

請參閱介紹 set_output API 以瞭解如何使用此 API 的範例。

參數:
transform{“default”, “pandas”, “polars”}, default=None

設定 transformfit_transform 的輸出格式。

  • "default":轉換器的預設輸出格式

  • "pandas":DataFrame 輸出

  • "polars":Polars 輸出

  • None:轉換設定保持不變

在版本 1.4 中新增:增加了 "polars" 選項。

回傳值:
self估算器實例

估算器實例。

set_params(**params)[原始碼]#

設定此估算器的參數。

此方法適用於簡單的估算器以及巢狀物件(例如 Pipeline)。後者具有 <component>__<parameter> 形式的參數,因此可以更新巢狀物件的每個組件。

參數:
**paramsdict

估算器參數。

回傳值:
self估算器實例

估算器實例。

transform(X)[原始碼]#

X 產生缺失值指標。

參數:
X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}

要完成的輸入資料。

回傳值:
Xt形狀為 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩陣}

輸入資料的缺失值指標。Xt 的資料類型將為布林值。