dump_svmlight_file#
- sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[原始碼]#
以 svmlight / libsvm 檔案格式儲存資料集。
此格式為文字格式,每行一個樣本。它不儲存零值特徵,因此適用於稀疏資料集。
每行的第一個元素可用於儲存要預測的目標變數。
- 參數:
- X形狀為 (n_samples, n_features) 的類陣列或稀疏矩陣
訓練向量,其中
n_samples
是樣本數,而n_features
是特徵數。- y形狀為 (n_samples,) 或 (n_samples, n_labels) 的類陣列或稀疏矩陣
目標值。類別標籤必須是整數或浮點數,或用於多標籤分類的整數或浮點數的類陣列物件。
- f字串或二進位模式的類檔案物件
若為字串,則指定將包含資料的路徑。若為類檔案物件,資料將寫入 f。f 應以二進位模式開啟。
- zero_based布林值,預設值=True
欄索引是否應以從零開始 (True) 或從一開始 (False) 寫入。
- comment字串或位元組,預設值=None
要插入檔案頂部的註解。這應該是 Unicode 字串(將編碼為 UTF-8)或 ASCII 位元組字串。如果給定註解,則其前面會加上一個標識該檔案已被 scikit-learn 傾印的註解。請注意,並非所有工具都了解 SVMlight 檔案中的註解。
- query_id形狀為 (n_samples,) 的類陣列物件,預設值=None
包含成對偏好約束(svmlight 格式中的 qid)的陣列。
- multilabel布林值,預設值=False
每個樣本可能有多個標籤(請參閱https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html)。
於 0.17 版本新增:參數
multilabel
以支援多標籤資料集。
範例
>>> from sklearn.datasets import dump_svmlight_file, make_classification >>> X, y = make_classification(random_state=0) >>> output_file = "my_dataset.svmlight" >>> dump_svmlight_file(X, y, output_file)