建立高斯分位數 (make_gaussian_quantiles)#

sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)[原始碼]#

依分位數生成等向高斯分布和標籤樣本。

這個分類資料集是透過取一個多維標準常態分佈，並定義由多層同心多維球體分隔的類別來建構，使得每個類別中樣本的數量大致相等（\(\chi^2\) 分佈的分位數）。

請在使用者指南中閱讀更多資訊。

參數:

meanarray-like，形狀為 (n_features,)，預設值為 None: 多維常態分佈的平均值。如果為 None，則使用原點 (0, 0, …)。
covfloat，預設值為 1.0: 共變異數矩陣將會是這個值乘以單位矩陣。這個資料集僅產生對稱的常態分佈。
n_samplesint，預設值為 100: 總點數，均勻分配到各類別中。
n_featuresint，預設值為 2: 每個樣本的特徵數量。
n_classesint，預設值為 3: 類別的數量。
shufflebool，預設值為 True: 將樣本洗牌。
random_stateint、RandomState 實例或 None，預設值為 None: 決定資料集建立的隨機數生成。傳遞一個 int 值以便在多個函數調用之間產生可重現的輸出。請參閱術語表。

回傳值:

Xndarray，形狀為 (n_samples, n_features): 產生的樣本。
yndarray，形狀為 (n_samples,): 每個樣本所屬分位數的整數標籤。

註記

此資料集來自 Zhu 等人 [1]。

參考文獻

[1]

Zhu, H. Zou, S. Rosset, T. Hastie, “Multi-class AdaBoost”, 2009。

範例

>>> from sklearn.datasets import make_gaussian_quantiles
>>> X, y = make_gaussian_quantiles(random_state=42)
>>> X.shape
(100, 2)
>>> y.shape
(100,)
>>> list(y[:5])
[np.int64(2), np.int64(0), np.int64(1), np.int64(0), np.int64(2)]

範例圖庫#

多類別 AdaBoost 提升決策樹

雙類別 AdaBoost