make_regression#
- sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[來源]#
產生一個隨機迴歸問題。
輸入集可以是良好條件的(預設),或者具有低秩肥尾奇異分佈。 詳情請參閱
make_low_rank_matrix
。輸出是透過將一個(可能帶有偏差的)隨機線性迴歸模型應用於先前產生的輸入,並加上一些可調整尺度的以高斯分佈為中心的雜訊而產生的,其中非零迴歸變數為
n_informative
。請在使用者指南中閱讀更多內容。
- 參數:
- n_samplesint,預設值=100
樣本的數量。
- n_featuresint,預設值=100
特徵的數量。
- n_informativeint,預設值=10
資訊性特徵的數量,即用於建立產生輸出的線性模型的特徵數量。
- n_targetsint,預設值=1
迴歸目標的數量,即與樣本相關的 y 輸出向量的維度。 預設情況下,輸出為純量。
- biasfloat,預設值=0.0
基礎線性模型中的偏差項。
- effective_rankint,預設值=None
- 如果不是 None
透過線性組合來解釋大部分輸入資料所需之奇異向量的近似數量。 在輸入中使用這種奇異譜允許產生器重現實務中常見的相關性。
- 如果為 None
輸入集是良好條件的,居中的,並且具有單位變異數的高斯分佈。
- tail_strengthfloat,預設值=0.5
如果
effective_rank
不是 None,則奇異值分佈的肥尾雜訊尾部的相對重要性。 當為浮點數時,應介於 0 和 1 之間。- noisefloat,預設值=0.0
應用於輸出之高斯雜訊的標準差。
- shufflebool,預設值=True
打亂樣本和特徵。
- coefbool,預設值=False
如果為 True,則會回傳基礎線性模型的係數。
- random_stateint、RandomState 實例或 None,預設值=None
決定資料集建立的隨機數產生。 傳遞一個 int 以便在多個函式呼叫之間產生可重複的輸出。 請參閱詞彙表。
- 回傳值:
- X形狀為 (n_samples, n_features) 的 ndarray
輸入樣本。
- y形狀為 (n_samples,) 或 (n_samples, n_targets) 的 ndarray
輸出值。
- coef形狀為 (n_features,) 或 (n_features, n_targets) 的 ndarray
基礎線性模型的係數。 僅在 coef 為 True 時回傳。
範例
>>> from sklearn.datasets import make_regression >>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42) >>> X array([[ 0.4967..., -0.1382... ], [ 0.6476..., 1.523...], [-0.2341..., -0.2341...], [-0.4694..., 0.5425...], [ 1.579..., 0.7674...]]) >>> y array([ 6.737..., 37.79..., -10.27..., 0.4017..., 42.22...])