fetch_species_distributions#
- sklearn.datasets.fetch_species_distributions(*, data_home=None, download_if_missing=True, n_retries=3, delay=1.0)[來源]#
從 Phillips 等人 (2006) 載入物種分佈資料集。
請在使用者指南中閱讀更多資訊。
- 參數:
- data_homestr 或類似路徑,預設值為 None
為資料集指定另一個下載和快取資料夾。依預設,所有 scikit-learn 資料都儲存在 '~/scikit_learn_data' 子資料夾中。
- download_if_missingbool,預設值為 True
如果為 False,則當資料在本地不可用時,會引發 OSError,而不是嘗試從來源網站下載資料。
- n_retriesint,預設值為 3
遇到 HTTP 錯誤時的重試次數。
於 1.5 版新增。
- delayfloat,預設值為 1.0
重試之間的秒數。
於 1.5 版新增。
- 返回:
- data
Bunch
類似字典的物件,具有以下屬性。
- coverages陣列,形狀 = [14, 1592, 1212]
這些表示在每個地圖網格點測量的 14 個特徵。網格的緯度/經度值將在下方討論。遺失的資料以值 -9999 表示。
- train記錄陣列,形狀 = (1624,)
資料的訓練點。每個點都有三個欄位
train[‘species’] 是物種名稱
train[‘dd long’] 是經度,以度為單位
train[‘dd lat’] 是緯度,以度為單位
- test記錄陣列,形狀 = (620,)
資料的測試點。與訓練資料相同的格式。
- Nx、Ny整數
網格中的經度 (x) 和緯度 (y) 數量
- x_left_lower_corner、y_left_lower_corner浮點數
左下角的 (x,y) 位置,以度為單位
- grid_size浮點數
網格點之間的間距,以度為單位
- data
注意事項
此資料集代表物種的地理分佈。資料集由 Phillips 等人 (2006) 提供。
這兩個物種是
“Bradypus variegatus”,棕喉樹懶。
“Microryzomys minutus”,又稱森林小稻鼠,一種生活在秘魯、哥倫比亞、厄瓜多、秘魯和委內瑞拉的齧齒動物。
參考文獻
“物種地理分佈的最大熵建模” S. J. Phillips、R. P. Anderson、R. E. Schapire - Ecological Modelling, 190:231-259, 2006.
範例
>>> from sklearn.datasets import fetch_species_distributions >>> species = fetch_species_distributions() >>> species.train[:5] array([(b'microryzomys_minutus', -64.7 , -17.85 ), (b'microryzomys_minutus', -67.8333, -16.3333), (b'microryzomys_minutus', -67.8833, -16.3 ), (b'microryzomys_minutus', -67.8 , -16.2667), (b'microryzomys_minutus', -67.9833, -15.9 )], dtype=[('species', 'S22'), ('dd long', '<f4'), ('dd lat', '<f4')])
如需更詳細的範例,請參閱物種分佈建模