load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[原始碼]#

載入並回傳乳癌威斯康辛資料集(分類)。

乳癌資料集是一個經典且非常容易的二元分類資料集。

類別

2

每類別的樣本數

212(惡性),357(良性)

樣本總數

569

維度

30

特徵

實數、正數

UCI ML 乳癌威斯康辛(診斷)資料集的副本下載自:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

使用者指南中閱讀更多。

參數:
return_X_ybool,預設值=False

如果為 True,則回傳 (data, target) 而非 Bunch 物件。關於 datatarget 物件的更多資訊,請見下方說明。

在版本 0.18 中新增。

as_framebool,預設值為 False

如果為 True,則資料會是一個 pandas DataFrame,其中包含具有適當資料類型(數值型)的欄位。目標值則會是一個 pandas DataFrame 或 Series,取決於目標欄位的數量。如果 return_X_y 為 True,則 (data, target) 將會是 pandas DataFrames 或 Series,如下所述。

在版本 0.23 中新增。

回傳值:
dataBunch

類似字典的物件,具有以下屬性。

data形狀為 (569, 30) 的 {ndarray, dataframe}

資料矩陣。如果 as_frame=Truedata 會是一個 pandas DataFrame。

target形狀為 (569,) 的 {ndarray, Series}

分類目標。如果 as_frame=Truetarget 會是一個 pandas Series。

feature_names形狀為 (30,) 的 ndarray

資料集欄位的名稱。

target_names形狀為 (2,) 的 ndarray

目標類別的名稱。

frame形狀為 (569, 31) 的 DataFrame

只有在 as_frame=True 時才會出現。包含 datatarget 的 DataFrame。

在版本 0.23 中新增。

DESCRstr

資料集的完整描述。

filenamestr

資料所在位置的路徑。

在版本 0.20 中新增。

(data, target)如果 return_X_y 為 True,則為 tuple

預設為一個包含兩個 ndarray 的 tuple。第一個包含一個形狀為 (569, 30) 的二維 ndarray,其中每一列代表一個樣本,每一欄代表一個特徵。第二個形狀為 (569,) 的 ndarray 則包含目標樣本。如果 as_frame=True,則兩個陣列都會是 pandas 物件,即 X 為 dataframe 而 y 為 series。

在版本 0.18 中新增。

範例

假設您對樣本 10、50 和 85 感興趣,並想知道它們的類別名稱。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]