dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[原始碼]#

以 svmlight / libsvm 檔案格式儲存資料集。

此格式為文字格式,每行一個樣本。它不儲存零值特徵,因此適用於稀疏資料集。

每行的第一個元素可用於儲存要預測的目標變數。

參數:
X形狀為 (n_samples, n_features) 的類陣列或稀疏矩陣

訓練向量,其中 n_samples 是樣本數,而 n_features 是特徵數。

y形狀為 (n_samples,) 或 (n_samples, n_labels) 的類陣列或稀疏矩陣

目標值。類別標籤必須是整數或浮點數,或用於多標籤分類的整數或浮點數的類陣列物件。

f字串或二進位模式的類檔案物件

若為字串,則指定將包含資料的路徑。若為類檔案物件,資料將寫入 f。f 應以二進位模式開啟。

zero_based布林值,預設值=True

欄索引是否應以從零開始 (True) 或從一開始 (False) 寫入。

comment字串或位元組,預設值=None

要插入檔案頂部的註解。這應該是 Unicode 字串(將編碼為 UTF-8)或 ASCII 位元組字串。如果給定註解,則其前面會加上一個標識該檔案已被 scikit-learn 傾印的註解。請注意,並非所有工具都了解 SVMlight 檔案中的註解。

query_id形狀為 (n_samples,) 的類陣列物件,預設值=None

包含成對偏好約束(svmlight 格式中的 qid)的陣列。

multilabel布林值,預設值=False

每個樣本可能有多個標籤(請參閱https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)。

於 0.17 版本新增:參數 multilabel 以支援多標籤資料集。

範例

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)