1.3. 核脊迴歸#

核脊迴歸(KRR)[M2012]結合了脊迴歸和分類(帶有 l2 範數正規化的線性最小平方)與核技巧。因此,它在各自的核和資料所誘導的空間中學習線性函數。對於非線性核,這對應於原始空間中的非線性函數。

KernelRidge學習的模型形式與支持向量迴歸(SVR)相同。然而,使用了不同的損失函數:KRR 使用平方誤差損失,而支持向量迴歸使用\(\epsilon\)不敏感損失,兩者都與 l2 正規化結合。與SVR相比,擬合KernelRidge可以以封閉形式完成,並且對於中等大小的資料集通常更快。另一方面,學習的模型是非稀疏的,因此比SVR慢,後者對於\(\epsilon > 0\)學習稀疏模型,在預測時也是如此。

下圖比較了在人工資料集上KernelRidgeSVR,該資料集由正弦目標函數組成,並在每第五個資料點添加強烈雜訊。KernelRidgeSVR學習的模型被繪製出來,其中 RBF 核的複雜度/正規化和頻寬都使用網格搜尋進行了最佳化。學習的函數非常相似;然而,擬合KernelRidge比擬合SVR快大約七倍(兩者都使用網格搜尋)。但是,使用SVR預測 100000 個目標值快三倍以上,因為它學習了稀疏模型,僅使用大約 100 個訓練資料點中的 1/3 作為支持向量。

../_images/sphx_glr_plot_kernel_ridge_regression_001.png

下圖比較了對於不同大小的訓練集,擬合和預測KernelRidgeSVR的時間。對於中等大小的訓練集(少於 1000 個樣本),擬合KernelRidgeSVR快;但是,對於較大的訓練集,SVR的擴展性更好。關於預測時間,由於學習了稀疏解,SVR對於所有大小的訓練集都比KernelRidge快。請注意,稀疏程度以及因此的預測時間取決於SVR的參數\(\epsilon\)\(C\)\(\epsilon = 0\)將對應於密集模型。

../_images/sphx_glr_plot_kernel_ridge_regression_002.png

範例

參考文獻

[M2012]

“機器學習:機率視角”,Murphy, K. P. - 第 14.4.3 章,第 492-493 頁,麻省理工學院出版社,2012