MissingIndicator#
- class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)[原始碼]#
用於遺失值的二元指標。
請注意,此元件通常不應在由轉換器和分類器組成的普通
Pipeline
中使用,而是可以使用FeatureUnion
或ColumnTransformer
來新增。請參閱 使用者指南 以了解更多資訊。
在 0.20 版本中新增。
- 參數:
- missing_valuesint、float、str、np.nan 或 None,預設值為 np.nan
遺失值的預留位置。所有出現的
missing_values
都會被填補。對於具有可為空整數 dtypes 且有遺失值的 pandas 資料框,missing_values
應設定為np.nan
,因為pd.NA
會被轉換為np.nan
。- features{‘missing-only’, ‘all’},預設值為 ‘missing-only’
指示器遮罩是否應表示所有或部分的特徵。
如果
'missing-only'
(預設值),則填補器遮罩將僅表示在擬合時包含缺失值的特徵。如果
'all'
,則填補器遮罩將表示所有特徵。
- sparsebool 或 ‘auto’,預設值為 ‘auto’
填補器遮罩的格式應該是稀疏的還是密集的。
如果
'auto'
(預設值),則填補器遮罩將與輸入的類型相同。如果
True
,則填補器遮罩將為稀疏矩陣。如果
False
,則填補器遮罩將為 numpy 陣列。
- error_on_newbool,預設值為 True
如果
True
,當有在fit
中沒有缺失值的特徵有缺失值時,transform
將會引發錯誤。這僅在features='missing-only'
時適用。
- 屬性:
另請參閱
SimpleImputer
缺失值的單變數填補。
IterativeImputer
缺失值的多變數填補。
範例
>>> import numpy as np >>> from sklearn.impute import MissingIndicator >>> X1 = np.array([[np.nan, 1, 3], ... [4, 0, np.nan], ... [8, 1, 0]]) >>> X2 = np.array([[5, 1, np.nan], ... [np.nan, 2, 3], ... [2, 4, 0]]) >>> indicator = MissingIndicator() >>> indicator.fit(X1) MissingIndicator() >>> X2_tr = indicator.transform(X2) >>> X2_tr array([[False, True], [ True, False], [False, False]])
- fit(X, y=None)[原始碼]#
在
X
上擬合轉換器。- 參數:
- X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}
輸入資料,其中
n_samples
是樣本數,n_features
是特徵數。- y已忽略
未使用,為符合 API 一致性而存在。
- 回傳值:
- self物件
已擬合的估計器。
- fit_transform(X, y=None)[原始碼]#
為
X
產生缺失值指標。- 參數:
- X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}
要完成的輸入資料。
- y已忽略
未使用,為符合 API 一致性而存在。
- 回傳值:
- Xt形狀為 (n_samples, n_features) 或 (n_samples, n_features_with_missing) 的 {ndarray, 稀疏矩陣}
輸入資料的缺失值指標。
Xt
的資料類型將為布林值。
- get_feature_names_out(input_features=None)[原始碼]#
取得轉換的輸出特徵名稱。
- 參數:
- input_features字串或 None 的類陣列,預設值為 None
輸入特徵。
如果
input_features
為None
,則feature_names_in_
會被當作輸入特徵名稱。如果feature_names_in_
未定義,則會產生以下輸入特徵名稱:["x0", "x1", ..., "x(n_features_in_ - 1)"]
。如果
input_features
為類陣列,則如果定義了feature_names_in_
,input_features
必須與feature_names_in_
相符。
- 回傳值:
- feature_names_out字串物件的 ndarray
轉換後的特徵名稱。
- get_metadata_routing()[原始碼]#
取得此物件的中繼資料路由。
請查看關於路由機制如何運作的使用者指南。
- 回傳值:
- routingMetadataRequest
封裝路由資訊的
MetadataRequest
。
- get_params(deep=True)[原始碼]#
取得此估計器的參數。
- 參數:
- deepbool,預設值為 True
如果為 True,將會回傳此估算器及其包含的子物件(也是估算器)的參數。
- 回傳值:
- paramsdict
參數名稱對應到它們的值。
- set_output(*, transform=None)[原始碼]#
設定輸出容器。
請參閱介紹 set_output API 以瞭解如何使用此 API 的範例。
- 參數:
- transform{“default”, “pandas”, “polars”}, default=None
設定
transform
和fit_transform
的輸出格式。"default"
:轉換器的預設輸出格式"pandas"
:DataFrame 輸出"polars"
:Polars 輸出None
:轉換設定保持不變
在版本 1.4 中新增:增加了
"polars"
選項。
- 回傳值:
- self估算器實例
估算器實例。