線性回歸#

class sklearn.linear_model.LinearRegression(*, fit_intercept=True, copy_X=True, n_jobs=None, positive=False)[原始碼]#

普通最小平方法線性回歸。

LinearRegression 會擬合一個線性模型，其係數 w = (w1, …, wp) 會最小化數據集中觀測到的目標值與線性近似預測的目標值之間的殘差平方和。

參數:

fit_interceptbool, default=True: 是否計算此模型的截距。如果設定為 False，則在計算中不會使用截距（即，預期資料已置中）。
copy_Xbool, default=True: 如果為 True，則會複製 X；否則可能會被覆寫。
n_jobsint, default=None: 用於計算的作業數量。只有在問題足夠大時，才會提供加速，也就是首先 n_targets > 1，其次 X 是稀疏的，或者 positive 設定為 True 時。None 表示 1，除非在 joblib.parallel_backend 環境中。-1 表示使用所有處理器。有關更多詳細資訊，請參閱詞彙表。
positivebool, default=False: 設定為 True 時，會強制係數為正數。此選項僅支援密集陣列。

在 0.24 版本中新增。

屬性:

coef_形狀為 (n_features, ) 或 (n_targets, n_features) 的陣列: 線性回歸問題的估計係數。如果在擬合過程中傳遞多個目標值 (y 為 2D)，則這是形狀為 (n_targets, n_features) 的 2D 陣列，如果僅傳遞一個目標值，則這是長度為 n_features 的 1D 陣列。
rank_int: 矩陣 X 的秩。僅當 X 為密集時才可用。
singular_形狀為 (min(X, y),) 的陣列: X 的奇異值。僅當 X 為密集時才可用。
intercept_float 或形狀為 (n_targets,) 的陣列: 線性模型中的獨立項。如果 fit_intercept = False，則設定為 0.0。
n_features_in_int: 在 fit 期間看到的特徵數量。

在 0.24 版本中新增。
feature_names_in_形狀為 (n_features_in_,) 的 ndarray: 在 fit 期間看到的特徵名稱。僅當 X 具有全部為字串的特徵名稱時才定義。

在 1.0 版本中新增。

另請參閱

Ridge: 嶺迴歸通過對係數的大小施加 l2 正規化懲罰來解決普通最小平方法的一些問題。
Lasso: Lasso 是一個線性模型，它使用 l1 正規化來估計稀疏係數。
ElasticNet: 彈性網是一個使用係數的 l1 和 l2 範數正規化來訓練的線性迴歸模型。

注意事項

從實作的角度來看，這只是簡單的普通最小平方法 (scipy.linalg.lstsq) 或非負最小平方法 (scipy.optimize.nnls) 包裝成預測器物件。

範例

>>> import numpy as np
>>> from sklearn.linear_model import LinearRegression
>>> X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
>>> # y = 1 * x_0 + 2 * x_1 + 3
>>> y = np.dot(X, np.array([1, 2])) + 3
>>> reg = LinearRegression().fit(X, y)
>>> reg.score(X, y)
1.0
>>> reg.coef_
array([1., 2.])
>>> reg.intercept_
np.float64(3.0...)
>>> reg.predict(np.array([[3, 5]]))
array([16.])

fit(X, y, sample_weight=None)[原始碼]#

擬合線性模型。

參數:

X形狀為 (n_samples, n_features) 的 {類陣列, 稀疏矩陣}: 訓練資料。
y形狀為 (n_samples,) 或 (n_samples, n_targets) 的類陣列: 目標值。如有必要，將會轉換為 X 的 dtype。
sample_weight形狀為 (n_samples,) 的類陣列，預設為 None: 每個樣本的個別權重。

在 0.17 版本中新增: 參數 sample_weight 支援 LinearRegression。

返回:

self物件: 已擬合的估計器。

get_metadata_routing()[原始碼]#

取得此物件的元資料路由。

請查看關於路由機制如何運作的使用者指南。

返回:

routingMetadataRequest: 封裝路由資訊的MetadataRequest。

get_params(deep=True)[原始碼]#

取得此估計器的參數。

參數:

deepbool, default=True: 如果為 True，則會傳回此估計器的參數和所包含的子物件，這些子物件是估計器。

返回:

paramsdict: 對應到其值的參數名稱。

predict(X)[原始碼]#

使用線性模型進行預測。

參數:

X形狀為 (n_samples, n_features) 的類陣列或稀疏矩陣: 樣本。

返回:

C形狀為 (n_samples,) 的陣列: 傳回預測值。

score(X, y, sample_weight=None)[原始碼]#

傳回預測的決定係數。

決定係數 $R^2$ 定義為 $(1 - \frac{u}{v})$，其中 $u$ 是殘差平方和 ((y_true - y_pred)** 2).sum()，而 $v$ 是總平方和 ((y_true - y_true.mean()) ** 2).sum()。最佳可能分數為 1.0，且可能為負數（因為模型可能任意地更差）。一個總是預測 y 的期望值，而忽略輸入特徵的常數模型，其 $R^2$ 分數會是 0.0。

參數:

X形狀類似陣列 (n_samples, n_features): 測試樣本。對於某些估算器，這可能是一個預先計算的核矩陣或形狀為 (n_samples, n_samples_fitted) 的泛型物件列表，其中 n_samples_fitted 是估算器擬合中使用的樣本數。
y形狀類似陣列 (n_samples,) 或 (n_samples, n_outputs): X 的真實值。
sample_weight形狀為 (n_samples,) 的類陣列，預設為 None: 樣本權重。

返回:

score浮點數: 相對於 y 的 self.predict(X) 的 $R^2$。

注意事項

當在迴歸器上呼叫 score 時使用的 $R^2$ 分數，從 0.23 版本開始使用 multioutput='uniform_average'，以保持與 r2_score 的預設值一致。這會影響所有多輸出迴歸器（除了 MultiOutputRegressor）的 score 方法。

set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') → LinearRegression[原始碼]#