make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[來源]#

產生一個隨機迴歸問題。

輸入集可以是良好條件的(預設),或者具有低秩肥尾奇異分佈。 詳情請參閱 make_low_rank_matrix

輸出是透過將一個(可能帶有偏差的)隨機線性迴歸模型應用於先前產生的輸入,並加上一些可調整尺度的以高斯分佈為中心的雜訊而產生的,其中非零迴歸變數為 n_informative

請在使用者指南中閱讀更多內容。

參數:
n_samplesint,預設值=100

樣本的數量。

n_featuresint,預設值=100

特徵的數量。

n_informativeint,預設值=10

資訊性特徵的數量,即用於建立產生輸出的線性模型的特徵數量。

n_targetsint,預設值=1

迴歸目標的數量,即與樣本相關的 y 輸出向量的維度。 預設情況下,輸出為純量。

biasfloat,預設值=0.0

基礎線性模型中的偏差項。

effective_rankint,預設值=None
如果不是 None

透過線性組合來解釋大部分輸入資料所需之奇異向量的近似數量。 在輸入中使用這種奇異譜允許產生器重現實務中常見的相關性。

如果為 None

輸入集是良好條件的,居中的,並且具有單位變異數的高斯分佈。

tail_strengthfloat,預設值=0.5

如果 effective_rank 不是 None,則奇異值分佈的肥尾雜訊尾部的相對重要性。 當為浮點數時,應介於 0 和 1 之間。

noisefloat,預設值=0.0

應用於輸出之高斯雜訊的標準差。

shufflebool,預設值=True

打亂樣本和特徵。

coefbool,預設值=False

如果為 True,則會回傳基礎線性模型的係數。

random_stateint、RandomState 實例或 None,預設值=None

決定資料集建立的隨機數產生。 傳遞一個 int 以便在多個函式呼叫之間產生可重複的輸出。 請參閱詞彙表

回傳值:
X形狀為 (n_samples, n_features) 的 ndarray

輸入樣本。

y形狀為 (n_samples,) 或 (n_samples, n_targets) 的 ndarray

輸出值。

coef形狀為 (n_features,) 或 (n_features, n_targets) 的 ndarray

基礎線性模型的係數。 僅在 coef 為 True 時回傳。

範例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967..., -0.1382... ],
    [ 0.6476...,  1.523...],
    [-0.2341..., -0.2341...],
    [-0.4694...,  0.5425...],
    [ 1.579...,  0.7674...]])
>>> y
array([  6.737...,  37.79..., -10.27...,   0.4017...,   42.22...])