建立高斯分位數 (make_gaussian_quantiles)#

sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)[原始碼]#

依分位數生成等向高斯分布和標籤樣本。

這個分類資料集是透過取一個多維標準常態分佈,並定義由多層同心多維球體分隔的類別來建構,使得每個類別中樣本的數量大致相等(\(\chi^2\) 分佈的分位數)。

請在使用者指南中閱讀更多資訊。

參數:
meanarray-like,形狀為 (n_features,),預設值為 None

多維常態分佈的平均值。如果為 None,則使用原點 (0, 0, …)。

covfloat,預設值為 1.0

共變異數矩陣將會是這個值乘以單位矩陣。這個資料集僅產生對稱的常態分佈。

n_samplesint,預設值為 100

總點數,均勻分配到各類別中。

n_featuresint,預設值為 2

每個樣本的特徵數量。

n_classesint,預設值為 3

類別的數量。

shufflebool,預設值為 True

將樣本洗牌。

random_stateint、RandomState 實例或 None,預設值為 None

決定資料集建立的隨機數生成。傳遞一個 int 值以便在多個函數調用之間產生可重現的輸出。請參閱術語表

回傳值:
Xndarray,形狀為 (n_samples, n_features)

產生的樣本。

yndarray,形狀為 (n_samples,)

每個樣本所屬分位數的整數標籤。

註記

此資料集來自 Zhu 等人 [1]。

參考文獻

[1]
  1. Zhu, H. Zou, S. Rosset, T. Hastie, “Multi-class AdaBoost”, 2009。

範例

>>> from sklearn.datasets import make_gaussian_quantiles
>>> X, y = make_gaussian_quantiles(random_state=42)
>>> X.shape
(100, 2)
>>> y.shape
(100,)
>>> list(y[:5])
[np.int64(2), np.int64(0), np.int64(1), np.int64(0), np.int64(2)]