建立高斯分位數 (make_gaussian_quantiles)#
- sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)[原始碼]#
依分位數生成等向高斯分布和標籤樣本。
這個分類資料集是透過取一個多維標準常態分佈,並定義由多層同心多維球體分隔的類別來建構,使得每個類別中樣本的數量大致相等(\(\chi^2\) 分佈的分位數)。
請在使用者指南中閱讀更多資訊。
- 參數:
- meanarray-like,形狀為 (n_features,),預設值為 None
多維常態分佈的平均值。如果為 None,則使用原點 (0, 0, …)。
- covfloat,預設值為 1.0
共變異數矩陣將會是這個值乘以單位矩陣。這個資料集僅產生對稱的常態分佈。
- n_samplesint,預設值為 100
總點數,均勻分配到各類別中。
- n_featuresint,預設值為 2
每個樣本的特徵數量。
- n_classesint,預設值為 3
類別的數量。
- shufflebool,預設值為 True
將樣本洗牌。
- random_stateint、RandomState 實例或 None,預設值為 None
決定資料集建立的隨機數生成。傳遞一個 int 值以便在多個函數調用之間產生可重現的輸出。請參閱術語表。
- 回傳值:
- Xndarray,形狀為 (n_samples, n_features)
產生的樣本。
- yndarray,形狀為 (n_samples,)
每個樣本所屬分位數的整數標籤。
註記
此資料集來自 Zhu 等人 [1]。
參考文獻
[1]Zhu, H. Zou, S. Rosset, T. Hastie, “Multi-class AdaBoost”, 2009。
範例
>>> from sklearn.datasets import make_gaussian_quantiles >>> X, y = make_gaussian_quantiles(random_state=42) >>> X.shape (100, 2) >>> y.shape (100,) >>> list(y[:5]) [np.int64(2), np.int64(0), np.int64(1), np.int64(0), np.int64(2)]