make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[來源]#

產生一個隨機迴歸問題。

輸入集可以是良好條件的（預設），或者具有低秩肥尾奇異分佈。詳情請參閱 make_low_rank_matrix。

輸出是透過將一個（可能帶有偏差的）隨機線性迴歸模型應用於先前產生的輸入，並加上一些可調整尺度的以高斯分佈為中心的雜訊而產生的，其中非零迴歸變數為 n_informative。

請在使用者指南中閱讀更多內容。

參數:

n_samplesint，預設值=100

樣本的數量。

n_featuresint，預設值=100

特徵的數量。

n_informativeint，預設值=10

資訊性特徵的數量，即用於建立產生輸出的線性模型的特徵數量。

n_targetsint，預設值=1

迴歸目標的數量，即與樣本相關的 y 輸出向量的維度。預設情況下，輸出為純量。

biasfloat，預設值=0.0

基礎線性模型中的偏差項。

effective_rankint，預設值=None

如果不是 None: 透過線性組合來解釋大部分輸入資料所需之奇異向量的近似數量。在輸入中使用這種奇異譜允許產生器重現實務中常見的相關性。
如果為 None: 輸入集是良好條件的，居中的，並且具有單位變異數的高斯分佈。

tail_strengthfloat，預設值=0.5

如果 effective_rank 不是 None，則奇異值分佈的肥尾雜訊尾部的相對重要性。當為浮點數時，應介於 0 和 1 之間。

noisefloat，預設值=0.0

應用於輸出之高斯雜訊的標準差。

shufflebool，預設值=True

打亂樣本和特徵。

coefbool，預設值=False

如果為 True，則會回傳基礎線性模型的係數。

random_stateint、RandomState 實例或 None，預設值=None

決定資料集建立的隨機數產生。傳遞一個 int 以便在多個函式呼叫之間產生可重複的輸出。請參閱詞彙表。

回傳值:

X形狀為 (n_samples, n_features) 的 ndarray: 輸入樣本。
y形狀為 (n_samples,) 或 (n_samples, n_targets) 的 ndarray: 輸出值。
coef形狀為 (n_features,) 或 (n_features, n_targets) 的 ndarray: 基礎線性模型的係數。僅在 coef 為 True 時回傳。

範例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967..., -0.1382... ],
    [ 0.6476...,  1.523...],
    [-0.2341..., -0.2341...],
    [-0.4694...,  0.5425...],
    [ 1.579...,  0.7674...]])
>>> y
array([  6.737...,  37.79..., -10.27...,   0.4017...,   42.22...])