dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[原始碼]#

以 svmlight / libsvm 檔案格式儲存資料集。

此格式為文字格式，每行一個樣本。它不儲存零值特徵，因此適用於稀疏資料集。

每行的第一個元素可用於儲存要預測的目標變數。

參數:

X形狀為 (n_samples, n_features) 的類陣列或稀疏矩陣: 訓練向量，其中 n_samples 是樣本數，而 n_features 是特徵數。
y形狀為 (n_samples,) 或 (n_samples, n_labels) 的類陣列或稀疏矩陣: 目標值。類別標籤必須是整數或浮點數，或用於多標籤分類的整數或浮點數的類陣列物件。
f字串或二進位模式的類檔案物件: 若為字串，則指定將包含資料的路徑。若為類檔案物件，資料將寫入 f。f 應以二進位模式開啟。
zero_based布林值，預設值=True: 欄索引是否應以從零開始 (True) 或從一開始 (False) 寫入。
comment字串或位元組，預設值=None: 要插入檔案頂部的註解。這應該是 Unicode 字串（將編碼為 UTF-8）或 ASCII 位元組字串。如果給定註解，則其前面會加上一個標識該檔案已被 scikit-learn 傾印的註解。請注意，並非所有工具都了解 SVMlight 檔案中的註解。
query_id形狀為 (n_samples,) 的類陣列物件，預設值=None: 包含成對偏好約束（svmlight 格式中的 qid）的陣列。
multilabel布林值，預設值=False: 每個樣本可能有多個標籤（請參閱https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html）。

於 0.17 版本新增：參數 multilabel 以支援多標籤資料集。

範例

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)