7.1. 玩具數據集#
scikit-learn 內建了一些小的標準數據集,不需要從外部網站下載任何檔案。
可以使用以下函數載入它們
|
載入並傳回鳶尾花數據集(分類)。 |
|
載入並傳回糖尿病數據集(迴歸)。 |
|
載入並傳回數字數據集(分類)。 |
|
載入並傳回 Linnerud 體能訓練數據集。 |
|
載入並傳回葡萄酒數據集(分類)。 |
|
載入並傳回威斯康辛州乳癌數據集(分類)。 |
這些數據集有助於快速說明 scikit-learn 中實作的各種演算法的行為。然而,它們通常太小而無法代表真實世界的機器學習任務。
7.1.1. 鳶尾花植物數據集#
數據集特性
- 實例數量:
150(三個類別各 50 個)
- 屬性數量:
4 個數值預測屬性和類別
- 屬性資訊:
萼片長度(公分)
萼片寬度(公分)
花瓣長度(公分)
花瓣寬度(公分)
- 類別
鳶尾花-山鳶尾
鳶尾花-變色鳶尾
鳶尾花-維吉尼亞鳶尾
- 摘要統計:
萼片長度 |
4.3 |
7.9 |
5.84 |
0.83 |
0.7826 |
萼片寬度 |
2.0 |
4.4 |
3.05 |
0.43 |
-0.4194 |
花瓣長度 |
1.0 |
6.9 |
3.76 |
1.76 |
0.9490 (高!) |
花瓣寬度 |
0.1 |
2.5 |
1.20 |
0.76 |
0.9565 (高!) |
- 遺失的屬性值:
無
- 類別分佈:
3 個類別各佔 33.3%。
- 建立者:
R.A. Fisher
- 捐贈者:
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- 日期:
1988 年 7 月
著名的鳶尾花資料庫,首次由 R.A. Fisher 爵士使用。此數據集取自 Fisher 的論文。請注意,它與 R 中的相同,但與 UCI 機器學習儲存庫中的不同,後者有兩個錯誤的數據點。
這可能是模式識別文獻中最廣為人知的資料庫。 Fisher 的論文是該領域的經典之作,至今仍被頻繁引用。(例如,請參閱 Duda & Hart。)該數據集包含 3 個類別,每個類別 50 個實例,其中每個類別都代表一種鳶尾花植物。其中一個類別與其他 2 個類別線性可分;後者彼此之間並非線性可分。
參考文獻#
Fisher, R.A. "The use of multiple measurements in taxonomic problems" Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950).
Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. 請參閱第 218 頁。
Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments". IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.
Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions on Information Theory, May 1972, 431-433.
另請參閱:1988 MLC Proceedings, 54-64。 Cheeseman 等人的 AUTOCLASS II 概念聚類系統在數據中找到 3 個類別。
還有很多很多...
7.1.2. 糖尿病數據集#
針對 n = 442 位糖尿病患者,取得 10 個基準變數:年齡、性別、身體質量指數、平均血壓以及六種血清測量值,以及關注的反應:基準線一年後的疾病進展定量測量值。
數據集特性
- 實例數量:
442
- 屬性數量:
前 10 個欄是數值預測值
- 目標:
第 11 欄是基準線一年後的疾病進展定量測量值
- 屬性資訊:
年齡:年齡(以年為單位)
性別
bmi:身體質量指數
bp:平均血壓
s1:tc,總血清膽固醇
s2:ldl,低密度脂蛋白
s3:hdl,高密度脂蛋白
s4:tch,總膽固醇/高密度脂蛋白
s5:ltg,可能是血清三酸甘油酯水平的對數
s6:glu,血糖水平
注意:這 10 個特徵變數的每一個都已經過平均值中心化,並按標準差乘以 n_samples
的平方根進行縮放(即,每欄的平方和總計為 1)。
來源網址:https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
如需更多資訊,請參閱:Bradley Efron、Trevor Hastie、Iain Johnstone 和 Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (with discussion), 407-499。 (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)
7.1.3. 手寫數字的光學辨識數據集#
數據集特性
- 實例數量:
1797
- 屬性數量:
64
- 屬性資訊:
範圍 0..16 內的整數像素的 8x8 影像。
- 遺失的屬性值:
無
- 建立者:
Alpaydin (alpaydin ‘@’ boun.edu.tr)
- 日期:
1998 年 7 月
這是 UCI ML 手寫數字數據集測試集的副本 https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits
該數據集包含手寫數字的影像:10 個類別,其中每個類別都代表一個數字。
由 NIST 提供的預處理程式用於從預印表格中提取手寫數字的標準化點陣圖。在總共 43 人中,30 人貢獻了訓練集,另外 13 人貢獻了測試集。 32x32 點陣圖被劃分為 4x4 的不重疊區塊,並計算每個區塊中開啟像素的數量。這會產生一個 8x8 的輸入矩陣,其中每個元素都是 0..16 範圍內的整數。這可以降低維度並使之對小的失真具有不變性。
如需 NIST 預處理常式的資訊,請參閱 M. D. Garris、J. L. Blue、G. T. Candela、D. L. Dimmick、J. Geist、P. J. Grother、S. A. Janet 和 C. L. Wilson,《NIST 基於表單的手寫體識別系統》,NISTIR 5469, 1994。
參考文獻#
C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.
Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.
7.1.4. Linnerrud 數據集#
數據集特性
- 實例數量:
20
- 屬性數量:
3
- 遺失的屬性值:
無
Linnerud 數據集是一個多輸出迴歸數據集。它包含從健身俱樂部中 20 名中年男子收集的三個運動(數據)變數和三個生理(目標)變數。
- 生理 - CSV 檔案,包含 20 個關於 3 個生理變數的觀測值
體重、腰圍和脈搏。
- 運動 - CSV 檔案,包含 20 個關於 3 個運動變數的觀測值
引體向上、仰臥起坐和跳躍。
參考文獻#
Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.
7.1.5. 葡萄酒辨識數據集#
數據集特性
- 實例數量:
178
- 屬性數量:
13 個數值預測屬性和類別
- 屬性資訊:
酒精
蘋果酸
灰
灰的鹼度
鎂
總酚
類黃酮
非類黃酮酚
原花青素
顏色強度
色調
稀釋葡萄酒的 OD280/OD315
脯氨酸
- 類別
class_0
class_1
class_2
- 摘要統計:
酒精 |
11.0 |
14.8 |
13.0 |
0.8 |
蘋果酸 |
0.74 |
5.80 |
2.34 |
1.12 |
灰 |
1.36 |
3.23 |
2.36 |
0.27 |
灰的鹼度 |
10.6 |
30.0 |
19.5 |
3.3 |
鎂 |
70.0 |
162.0 |
99.7 |
14.3 |
總酚 |
0.98 |
3.88 |
2.29 |
0.63 |
類黃酮 |
0.34 |
5.08 |
2.03 |
1.00 |
非類黃酮酚 |
0.13 |
0.66 |
0.36 |
0.12 |
原花青素 |
0.41 |
3.58 |
1.59 |
0.57 |
顏色強度 |
1.3 |
13.0 |
5.1 |
2.3 |
色調 |
0.48 |
1.71 |
0.96 |
0.23 |
稀釋葡萄酒的 OD280/OD315 |
1.27 |
4.00 |
2.61 |
0.71 |
脯氨酸 |
278 |
1680 |
746 |
315 |
- 遺失的屬性值:
無
- 類別分佈:
class_0 (59), class_1 (71), class_2 (48)
- 建立者:
R.A. Fisher
- 捐贈者:
Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
- 日期:
1988 年 7 月
這是 UCI ML 葡萄酒辨識數據集的副本。https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data
這些數據是對義大利同地區三位不同種植者種植的葡萄酒進行化學分析的結果。針對三種類型的葡萄酒中發現的不同成分進行了十三種不同的測量。
原始擁有者
Forina, M. et al, PARVUS - 用於數據探索、分類和相關性的可擴展套件。義大利熱那亞薩萊諾旅 16147 號藥物和食品分析技術研究所。
引用
Lichman, M. (2013)。UCI 機器學習儲存庫 [https://archive.ics.uci.edu/ml]。加利福尼亞州爾灣市:加州大學資訊與電腦科學學院。
參考文獻#
(1) S. Aeberhard、D. Coomans 和 O. de Vel,《高維設定中分類器的比較》,技術報告編號 92-02,(1992),北昆士蘭詹姆斯庫克大學電腦科學系和數學與統計學系。(也提交給 Technometrics)。
這些數據與許多其他數據一起用於比較各種分類器。這些類別是可分離的,但只有 RDA 實現了 100% 的正確分類。(RDA:100%,QDA 99.4%,LDA 98.9%,1NN 96.1%(z 轉換數據))(所有結果均使用留一法技術)
(2) S. Aeberhard、D. Coomans 和 O. de Vel,“RDA 的分類效能”技術報告編號 92-01,(1992),北昆士蘭詹姆斯庫克大學電腦科學系和數學與統計學系。(也提交給化學計量學期刊)。
7.1.6. 威斯康辛乳癌(診斷)數據集#
數據集特性
- 實例數量:
569
- 屬性數量:
30 個數值預測屬性和類別
- 屬性資訊:
半徑(從中心到周界上各點的距離平均值)
紋理(灰階值的標準差)
周長
面積
平滑度(半徑長度的局部變化)
緻密度(周長^2 / 面積 - 1.0)
凹度(輪廓凹陷部分的嚴重程度)
凹點(輪廓凹陷部分的數量)
對稱性
分形維度(“海岸線近似值” - 1)
計算每個影像的這些特徵的平均值、標準誤差和「最差」或最大值(三個最差/最大值的平均值),產生 30 個特徵。例如,欄位 0 是平均半徑,欄位 10 是半徑標準差,欄位 20 是最差半徑。
- 類別
WDBC-惡性
WDBC-良性
- 摘要統計:
半徑(平均值) |
6.981 |
28.11 |
紋理(平均值) |
9.71 |
39.28 |
周長(平均值) |
43.79 |
188.5 |
面積(平均值) |
143.5 |
2501.0 |
平滑度(平均值) |
0.053 |
0.163 |
緻密度(平均值) |
0.019 |
0.345 |
凹度(平均值) |
0.0 |
0.427 |
凹點(平均值) |
0.0 |
0.201 |
對稱性(平均值) |
0.106 |
0.304 |
分形維度(平均值) |
0.05 |
0.097 |
半徑(標準誤差) |
0.112 |
2.873 |
紋理(標準誤差) |
0.36 |
4.885 |
周長(標準誤差) |
0.757 |
21.98 |
面積(標準誤差) |
6.802 |
542.2 |
平滑度(標準誤差) |
0.002 |
0.031 |
緻密度(標準誤差) |
0.002 |
0.135 |
凹度(標準誤差) |
0.0 |
0.396 |
凹點(標準誤差) |
0.0 |
0.053 |
對稱性(標準誤差) |
0.008 |
0.079 |
分形維度(標準誤差) |
0.001 |
0.03 |
半徑(最差) |
7.93 |
36.04 |
紋理(最差) |
12.02 |
49.54 |
周長(最差) |
50.41 |
251.2 |
面積(最差) |
185.2 |
4254.0 |
平滑度(最差) |
0.071 |
0.223 |
緻密度(最差) |
0.027 |
1.058 |
凹度(最差) |
0.0 |
1.252 |
凹點(最差) |
0.0 |
0.291 |
對稱性(最差) |
0.156 |
0.664 |
分形維度(最差) |
0.055 |
0.208 |
- 遺失的屬性值:
無
- 類別分佈:
212 - 惡性,357 - 良性
- 建立者:
William H. Wolberg 博士、W. Nick Street、Olvi L. Mangasarian
- 捐贈者:
Nick Street
- 日期:
1995 年 11 月
這是 UCI ML 威斯康辛乳癌(診斷)數據集的副本。https://goo.gl/U2Uwz2
特徵是從乳房腫塊的細針抽吸 (FNA) 的數位化影像計算得出的。它們描述影像中存在的細胞核的特徵。
上述分離平面是使用多表面方法樹 (MSM-T) 獲得的 [K. P. Bennett,“透過線性規劃建立決策樹”。第 4 屆中西部人工智慧與認知科學協會論文集,第 97-101 頁,1992 年],這是一種使用線性規劃來建立決策樹的分類方法。使用 1-4 個特徵和 1-3 個分離平面的空間中的詳盡搜尋來選擇相關特徵。
用於在 3 維空間中獲得分離平面的實際線性程式如以下所述:[K. P. Bennett 和 O. L. Mangasarian:“兩個線性不可分離集合的強健線性規劃判別”,最佳化方法與軟體 1,1992,23-34]。
此資料庫也可以透過 UW CS ftp 伺服器取得
ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/
參考文獻#
W.N. Street、W.H. Wolberg 和 O.L. Mangasarian。用於乳房腫瘤診斷的核特徵提取。IS&T/SPIE 1993 年國際電子影像研討會:科學與技術,第 1905 卷,第 861-870 頁,加利福尼亞州聖荷西,1993 年。
O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。透過線性規劃進行乳癌診斷和預後。《運籌學》,43(4),第 570-577 頁,1995 年 7-8 月。
W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。利用機器學習技術從細針抽吸物診斷乳癌。《癌症快訊》77 (1994) 163-171。