6. 資料集轉換#
scikit-learn 提供了一個轉換器庫,可以清理(請參閱預處理資料)、縮減(請參閱非監督式降維)、擴展(請參閱核近似)或生成(請參閱特徵提取)特徵表示。
與其他估計器類似,這些轉換器由具有 fit
方法的類別表示,該方法從訓練集中學習模型參數(例如,用於標準化的平均值和標準差),以及 transform
方法,該方法將此轉換模型應用於未見過的資料。fit_transform
對於同時建模和轉換訓練資料可能更方便和有效。
在管道和複合估計器中涵蓋了平行或串聯組合這些轉換器。成對度量、親和力和核函數涵蓋了將特徵空間轉換為親和力矩陣,而轉換預測目標 (y)則考慮了目標空間(例如,分類標籤)的轉換,以便在 scikit-learn 中使用。