load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[原始碼]#
載入並回傳乳癌威斯康辛資料集(分類)。
乳癌資料集是一個經典且非常容易的二元分類資料集。
類別
2
每類別的樣本數
212(惡性),357(良性)
樣本總數
569
維度
30
特徵
實數、正數
UCI ML 乳癌威斯康辛(診斷)資料集的副本下載自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
在使用者指南中閱讀更多。
- 參數:
- return_X_ybool,預設值=False
如果為 True,則回傳
(data, target)
而非 Bunch 物件。關於data
和target
物件的更多資訊,請見下方說明。在版本 0.18 中新增。
- as_framebool,預設值為 False
如果為 True,則資料會是一個 pandas DataFrame,其中包含具有適當資料類型(數值型)的欄位。目標值則會是一個 pandas DataFrame 或 Series,取決於目標欄位的數量。如果
return_X_y
為 True,則 (data
,target
) 將會是 pandas DataFrames 或 Series,如下所述。在版本 0.23 中新增。
- 回傳值:
- data
Bunch
類似字典的物件,具有以下屬性。
- data形狀為 (569, 30) 的 {ndarray, dataframe}
資料矩陣。如果
as_frame=True
,data
會是一個 pandas DataFrame。- target形狀為 (569,) 的 {ndarray, Series}
分類目標。如果
as_frame=True
,target
會是一個 pandas Series。- feature_names形狀為 (30,) 的 ndarray
資料集欄位的名稱。
- target_names形狀為 (2,) 的 ndarray
目標類別的名稱。
- frame形狀為 (569, 31) 的 DataFrame
只有在
as_frame=True
時才會出現。包含data
和target
的 DataFrame。在版本 0.23 中新增。
- DESCRstr
資料集的完整描述。
- filenamestr
資料所在位置的路徑。
在版本 0.20 中新增。
- (data, target)如果
return_X_y
為 True,則為 tuple 預設為一個包含兩個 ndarray 的 tuple。第一個包含一個形狀為 (569, 30) 的二維 ndarray,其中每一列代表一個樣本,每一欄代表一個特徵。第二個形狀為 (569,) 的 ndarray 則包含目標樣本。如果
as_frame=True
,則兩個陣列都會是 pandas 物件,即X
為 dataframe 而y
為 series。在版本 0.18 中新增。
- data
範例
假設您對樣本 10、50 和 85 感興趣,並想知道它們的類別名稱。
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')]