提取加州房價資料集 (fetch_california_housing)#
- sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[來源]#
載入加州房價資料集 (迴歸)。
總樣本數
20640
維度
8
特徵
實數
目標
實數 0.15 - 5。
請參閱使用者指南以了解更多資訊。
- 參數:
- data_home字串或類路徑,預設值為 None
指定資料集的另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在「~/scikit_learn_data」子資料夾中。
- download_if_missingbool,預設值=True
若為 False,當資料在本地端不可用時,將引發 OSError,而不是嘗試從來源網站下載資料。
- return_X_ybool,預設值=False
若為 True,則回傳
(data.data, data.target)
而不是 Bunch 物件。新增於 0.20 版本。
- as_framebool,預設值=False
若為 True,則資料會是一個 pandas DataFrame,包含適當資料類型 (數值、字串或類別) 的欄位。目標值會是一個 pandas DataFrame 或 Series,取決於目標欄位的數量。
新增於 0.23 版本。
- n_retriesint,預設值=3
當遇到 HTTP 錯誤時的重試次數。
新增於 1.5 版本。
- delayfloat,預設值=1.0
重試之間的秒數間隔。
新增於 1.5 版本。
- 回傳值:
- dataset
Bunch
類似字典的物件,具有以下屬性。
- datandarray,形狀 (20640, 8)
每一列對應 8 個特徵值(依順序排列)。若
as_frame
為 True,則data
為 pandas 物件。- target形狀 (20640,) 的 numpy 陣列
每個值對應房屋的平均價值(單位為 100,000)。若
as_frame
為 True,則target
為 pandas 物件。- feature_names長度為 8 的列表
資料集中使用的已排序特徵名稱陣列。
- DESCRstr
加州房價資料集的描述。
- framepandas DataFrame
僅在
as_frame=True
時存在。包含data
和target
的 DataFrame。新增於 0.23 版本。
- (data, target)若
return_X_y
為 True 則為 tuple 一個包含兩個 ndarray 的 tuple。第一個包含形狀為 (n_samples, n_features) 的二維陣列,每一列代表一個樣本,每一欄代表一個特徵。第二個 ndarray 的形狀為 (n_samples,),包含目標樣本。
新增於 0.20 版本。
- dataset
注意事項
此資料集包含 20,640 個樣本和 9 個特徵。
範例
>>> from sklearn.datasets import fetch_california_housing >>> housing = fetch_california_housing() >>> print(housing.data.shape, housing.target.shape) (20640, 8) (20640,) >>> print(housing.feature_names[0:6]) ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']