提取加州房價資料集 (fetch_california_housing)#

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[來源]#

載入加州房價資料集 (迴歸)。

總樣本數

20640

維度

8

特徵

實數

目標

實數 0.15 - 5。

請參閱使用者指南以了解更多資訊。

參數:
data_home字串或類路徑,預設值為 None

指定資料集的另一個下載和快取資料夾。預設情況下,所有 scikit-learn 資料都儲存在「~/scikit_learn_data」子資料夾中。

download_if_missingbool,預設值=True

若為 False,當資料在本地端不可用時,將引發 OSError,而不是嘗試從來源網站下載資料。

return_X_ybool,預設值=False

若為 True,則回傳 (data.data, data.target) 而不是 Bunch 物件。

新增於 0.20 版本。

as_framebool,預設值=False

若為 True,則資料會是一個 pandas DataFrame,包含適當資料類型 (數值、字串或類別) 的欄位。目標值會是一個 pandas DataFrame 或 Series,取決於目標欄位的數量。

新增於 0.23 版本。

n_retriesint,預設值=3

當遇到 HTTP 錯誤時的重試次數。

新增於 1.5 版本。

delayfloat,預設值=1.0

重試之間的秒數間隔。

新增於 1.5 版本。

回傳值:
datasetBunch

類似字典的物件,具有以下屬性。

datandarray,形狀 (20640, 8)

每一列對應 8 個特徵值(依順序排列)。若 as_frame 為 True,則 data 為 pandas 物件。

target形狀 (20640,) 的 numpy 陣列

每個值對應房屋的平均價值(單位為 100,000)。若 as_frame 為 True,則 target 為 pandas 物件。

feature_names長度為 8 的列表

資料集中使用的已排序特徵名稱陣列。

DESCRstr

加州房價資料集的描述。

framepandas DataFrame

僅在 as_frame=True 時存在。包含 datatarget 的 DataFrame。

新增於 0.23 版本。

(data, target)return_X_y 為 True 則為 tuple

一個包含兩個 ndarray 的 tuple。第一個包含形狀為 (n_samples, n_features) 的二維陣列,每一列代表一個樣本,每一欄代表一個特徵。第二個 ndarray 的形狀為 (n_samples,),包含目標樣本。

新增於 0.20 版本。

注意事項

此資料集包含 20,640 個樣本和 9 個特徵。

範例

>>> from sklearn.datasets import fetch_california_housing
>>> housing = fetch_california_housing()
>>> print(housing.data.shape, housing.target.shape)
(20640, 8) (20640,)
>>> print(housing.feature_names[0:6])
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']