2.2. 流形學習#

尋找最基本的需求
簡單的基本需求
忘卻您的煩惱和紛爭
我指的是基本需求
老母親大自然的食譜
帶來生活的基本需求

– 巴魯之歌 [森林王子]

../_images/sphx_glr_plot_compare_methods_001.png

流形學習是一種非線性降維的方法。此任務的演算法基於以下觀念：許多資料集的維度只是人為地設定較高。

2.2.1. 簡介#

高維資料集可能難以視覺化。雖然可以繪製二維或三維資料以顯示資料的固有結構，但等效的高維圖形則較不直觀。為了協助視覺化資料集的結構，必須以某種方式縮減維度。

達成此降維的最簡單方法是採用資料的隨機投影。儘管這允許某種程度的資料結構視覺化，但選擇的隨機性仍有許多不足之處。在隨機投影中，資料中較有趣的結構很可能會遺失。

為了處理這個問題，已設計出許多監督式和無監督式線性降維架構，例如主成分分析 (PCA)、獨立成分分析、線性判別分析和其他。這些演算法定義了特定的規則，以選擇資料的「有趣」線性投影。這些方法可能很強大，但往往會遺漏資料中重要的非線性結構。

流形學習可以被視為嘗試將線性架構（如 PCA）推廣為對資料中的非線性結構敏感。儘管存在監督式變體，但典型的流形學習問題是無監督式的：它從資料本身學習資料的高維結構，而無需使用預定的分類。

範例

請參閱手寫數字的流形學習：局部線性嵌入、Isomap…，以瞭解手寫數字降維的範例。
請參閱流形學習方法比較，以瞭解玩具「S 曲線」資料集降維的範例。
請參閱視覺化股票市場結構，以瞭解如何使用流形學習根據歷史股價繪製股票市場結構圖。

以下概述 scikit-learn 中可用的流形學習實作

2.2.2. Isomap#

Isomap 演算法是流形學習最早的方法之一，是 Isometric Mapping 的縮寫。Isomap 可以視為多維度縮放 (MDS) 或核 PCA 的延伸。Isomap 尋求維持所有點之間測地距離的較低維度嵌入。可以使用物件 Isomap 執行 Isomap。

../_images/sphx_glr_plot_lle_digits_005.png

參考文獻

「非線性降維的整體幾何架構」Tenenbaum, J.B.; De Silva, V.; & Langford, J.C. Science 290 (5500)

2.2.3. 局部線性嵌入#

局部線性嵌入 (LLE) 尋求資料的較低維度投影，以保留局部鄰域內的距離。它可以被視為一系列局部主成分分析，這些分析會進行全域比較以找出最佳的非線性嵌入。

可以使用函式 locally_linear_embedding 或其物件導向的對應項目 LocallyLinearEmbedding 來執行局部線性嵌入。

../_images/sphx_glr_plot_lle_digits_006.png

參考文獻

“局部線性嵌入的非線性降維” Roweis, S. & Saul, L. Science 290:2323 (2000)

2.2.4. 修改後的局部線性嵌入#

LLE 的一個眾所周知的問題是正規化問題。當鄰居數量大於輸入維度數量時，定義每個局部鄰域的矩陣是秩虧的。為了處理這個問題，標準 LLE 應用了一個任意的正規化參數 \(r\)，該參數是相對於局部權重矩陣的跡來選擇的。儘管可以正式證明當 \(r \to 0\) 時，解會收斂到期望的嵌入，但不能保證對於 \(r > 0\) 會找到最佳解。這個問題會體現在扭曲流形底層幾何結構的嵌入中。

解決正規化問題的一種方法是在每個鄰域中使用多個權重向量。這是修改後的局部線性嵌入 (MLLE) 的本質。可以使用函數 locally_linear_embedding 或其物件導向的對應物 LocallyLinearEmbedding 執行 MLLE，關鍵字為 method = 'modified'。它需要 n_neighbors > n_components。

../_images/sphx_glr_plot_lle_digits_007.png

參考文獻

“MLLE：使用多個權重的修改後局部線性嵌入” Zhang, Z. & Wang, J.

2.2.5. 黑塞特徵映射#

黑塞特徵映射（也稱為基於黑塞的 LLE：HLLE）是解決 LLE 正規化問題的另一種方法。它圍繞每個鄰域的基於黑塞的二次形式，用於恢復局部線性結構。儘管其他實現方式指出它在資料大小上的縮放效果不佳，但 sklearn 實施了一些演算法上的改進，使其成本與其他小輸出維度的 LLE 變體相當。可以使用函數 locally_linear_embedding 或其物件導向的對應物 LocallyLinearEmbedding 執行 HLLE，關鍵字為 method = 'hessian'。它需要 n_neighbors > n_components * (n_components + 3) / 2。

../_images/sphx_glr_plot_lle_digits_008.png

參考文獻

“黑塞特徵映射：用於高維數據的局部線性嵌入技術” Donoho, D. & Grimes, C. Proc Natl Acad Sci USA. 100:5591 (2003)

2.2.6. 譜嵌入#

譜嵌入是一種計算非線性嵌入的方法。Scikit-learn 實施了拉普拉斯特徵映射，它使用圖拉普拉斯的譜分解找到數據的低維表示。生成的圖可以被認為是高維空間中低維流形的離散近似。基於圖的成本函數的最小化確保了流形上彼此靠近的點在低維空間中映射為彼此靠近，從而保留局部距離。可以使用函數 spectral_embedding 或其物件導向的對應物 SpectralEmbedding 執行譜嵌入。

參考文獻

“用於降維和數據表示的拉普拉斯特徵映射” M. Belkin, P. Niyogi, 神经计算，2003 年 6 月；15 (6):1373-1396

2.2.7. 局部切線空間對齊#

雖然在技術上不是 LLE 的變體，但局部切線空間對齊 (LTSA) 在演算法上與 LLE 非常相似，可以歸入此類。LTSA 並非像 LLE 那樣側重於保留鄰域距離，而是試圖透過其切線空間來描述每個鄰域的局部幾何結構，並執行全局優化以對齊這些局部切線空間，從而學習嵌入。可以使用函數 locally_linear_embedding 或其物件導向的對應物 LocallyLinearEmbedding 執行 LTSA，關鍵字為 method = 'ltsa'。

../_images/sphx_glr_plot_lle_digits_009.png

參考文獻

“透過切線空間對齊的主流形和非線性降維” Zhang, Z. & Zha, H. Journal of Shanghai Univ. 8:406 (2004)

2.2.8. 多維尺度分析 (MDS)#

多維尺度分析 (MDS) 尋求數據的低維表示，其中距離能很好地尊重原始高維空間中的距離。

一般來說，MDS 是一種用於分析相似性或相異性資料的技術。它試圖將相似性或相異性資料建模為幾何空間中的距離。這些資料可以是物件之間的相似性評分、分子之間的交互頻率，或是國家之間的貿易指數。

MDS 演算法有兩種：度量式 (metric) 和非度量式 (non-metric)。在 scikit-learn 中，MDS 類別同時實作了這兩種演算法。在度量式 MDS 中，輸入的相似性矩陣來自於一個度量（因此符合三角不等式），輸出兩點之間的距離會被設定成盡可能接近相似性或相異性資料。在非度量版本中，演算法會試圖保留距離的順序，並因此尋求嵌入空間中的距離與相似性/相異性之間的單調關係。

../_images/sphx_glr_plot_lle_digits_010.png

令 \(S\) 為相似性矩陣，而 \(X\) 為 \(n\) 個輸入點的座標。差異值 \(\hat{d}_{ij}\) 是以某種最佳方式選擇的相似性轉換。目標（稱為應力 (stress)）然後定義為 \(\sum_{i < j} d_{ij}(X) - \hat{d}_{ij}(X)\)。

參考文獻

《現代多維尺度分析 - 理論與應用》 Borg, I.; Groenen P. Springer Series in Statistics (1997)
「非度量多維尺度分析：一種數值方法」 Kruskal, J. Psychometrika, 29 (1964)
「透過最佳化對非度量假設的擬合優度進行多維尺度分析」 Kruskal, J. Psychometrika, 29, (1964)

2.2.9. t 分佈隨機鄰近嵌入 (t-SNE)#

t-SNE (TSNE) 將資料點的親和力轉換為機率。原始空間中的親和力由高斯聯合機率表示，而嵌入空間中的親和力由學生 t 分佈表示。這使得 t-SNE 對局部結構特別敏感，並且相較於現有技術具有一些其他優點

在單一地圖上揭示多個尺度的結構
揭示位於多個不同流形或叢集中的資料
減少將點群聚在中心的趨勢

雖然 Isomap、LLE 和變體最適合展開單一連續的低維流形，但 t-SNE 會專注於資料的局部結構，並且傾向於提取樣本的叢集局部群組，如 S 曲線範例中強調的那樣。這種基於局部結構對樣本進行分組的能力，可能有利於視覺上解開同時包含多個流形的資料集，就像數字資料集中的情況一樣。

原始空間和嵌入空間中聯合機率的 Kullback-Leibler (KL) 散度將透過梯度下降最小化。請注意，KL 散度不是凸的，也就是說，以不同的初始化多次重新啟動將導致 KL 散度的局部最小值。因此，嘗試不同的種子並選擇具有最低 KL 散度的嵌入有時會很有用。

使用 t-SNE 的缺點大致如下

t-SNE 的計算成本很高，對於 PCA 在幾秒或幾分鐘內完成的數百萬樣本資料集，可能需要數小時
Barnes-Hut t-SNE 方法僅限於二維或三維嵌入。
該演算法是隨機的，並且以不同種子多次重新啟動可能會產生不同的嵌入。但是，選擇誤差最小的嵌入是完全合理的。
整體結構沒有明確地保留。這個問題可以透過使用 PCA 初始化點（使用 init='pca'）來緩解。

../_images/sphx_glr_plot_lle_digits_013.png

參考文獻

“使用 t-SNE 可視化高維數據” van der Maaten, L.J.P.; Hinton, G. Journal of Machine Learning Research (2008)
“t-分佈隨機鄰居嵌入” van der Maaten, L.J.P.
“使用基於樹的演算法加速 t-SNE” van der Maaten, L.J.P.; Journal of Machine Learning Research 15(Oct):3221-3245, 2014。
“用於 T 分佈隨機鄰居嵌入的自動優化參數，改善大型數據集的可視化和分析” Belkina, A.C., Ciccolella, C.O., Anno, R., Halpert, R., Spidlen, J., Snyder-Cappione, J.E., Nature Communications 10, 5415 (2019)。

2.2.10. 實用技巧#

請確保所有特徵都使用相同的尺度。由於流形學習方法基於最近鄰搜尋，否則演算法可能會表現不佳。請參閱 StandardScaler 以了解方便縮放異質數據的方法。
每個常式計算的重建誤差可用於選擇最佳輸出維度。對於嵌入在 \(D\) 維參數空間中的 \(d\) 維流形，當 n_components 增加時，重建誤差將會減少，直到 n_components == d。
請注意，雜訊數據可能會「短路」流形，本質上充當流形各部分之間的橋樑，這些部分否則會很好地分離。在雜訊和/或不完整數據上進行流形學習是一個活躍的研究領域。
某些輸入配置可能導致奇異權重矩陣，例如當數據集中有兩個以上的點相同時，或者當數據被分成不相交的群組時。在這種情況下，solver='arpack' 將無法找到零空間。解決這個問題最簡單的方法是使用 solver='dense'，它可以在奇異矩陣上工作，儘管根據輸入點的數量，它可能會非常慢。或者，可以嘗試了解奇異性的來源：如果是由於不相交的集合，增加 n_neighbors 可能會有幫助。如果是由於數據集中存在相同的點，刪除這些點可能會有所幫助。

另請參閱

完全隨機樹嵌入也可用於推導特徵空間的非線性表示，它也不執行降維。