sklearn.preprocessing#

用於縮放、居中、正規化、二值化等的方法。

使用者指南。有關更多詳細資訊,請參閱預處理資料章節。

二值化器

根據閾值二值化資料(將特徵值設定為0或1)。

函數轉換器

從任意可呼叫物件建構轉換器。

K箱離散化器

將連續資料分箱成間隔。

核函數中心化器

將任意核矩陣 \(K\) 中心化。

標籤二值化器

以一對多方式二值化標籤。

標籤編碼器

以0到n_classes-1之間的值編碼目標標籤。

最大絕對值縮放器

按每個特徵的最大絕對值縮放每個特徵。

最小最大值縮放器

通過將每個特徵縮放到給定的範圍來轉換特徵。

多標籤二值化器

在可迭代物件的迭代物件和多標籤格式之間轉換。

正規化器

將樣本單獨正規化為單位範數。

獨熱編碼器

將類別特徵編碼為獨熱數字陣列。

序數編碼器

將類別特徵編碼為整數陣列。

多項式特徵

生成多項式和交互特徵。

冪轉換器

以特徵方式套用冪轉換,使資料更像高斯分佈。

分位數轉換器

使用分位數資訊轉換特徵。

穩健縮放器

使用對離群值穩健的統計資料縮放特徵。

樣條轉換器

為特徵生成單變數B樣條基底。

標準化縮放器

通過移除平均值並縮放到單位變異數來標準化特徵。

目標編碼器

用於迴歸和分類目標的目標編碼器。

添加虛擬特徵

使用額外的虛擬特徵擴充資料集。

二值化

類陣列或scipy.sparse矩陣的布林閾值處理。

標籤二值化

以一對多方式二值化標籤。

最大絕對值縮放

在不破壞稀疏性的前提下,將每個特徵縮放到 [-1, 1] 的範圍內。

最小最大值縮放

通過將每個特徵縮放到給定的範圍來轉換特徵。

正規化

將輸入向量個別縮放到單位範數(向量長度)。

冪轉換

參數化、單調轉換,使資料更接近高斯分佈。

分位數轉換

使用分位數資訊轉換特徵。

穩健縮放

沿著任意軸標準化資料集。

縮放

沿著任意軸標準化資料集。