資料集管理
有效的資料集準備對於機器學習模型的成功微調至關重要。高品質且結構良好的資料集確保模型能夠準確學習並有效泛化。 為了支援這一點,我們的系統提供了兩種靈活的資料集管理方法,既迎合了偏好手動準備的進階用戶,也滿足了尋求自動化解決方案的用戶。
資料集管理功能提供兩種處理資料集的方法:
方法 1:上傳預處理的資料集 JSON 檔案
用戶可以按指定格式準備自己的資料集 JSON 檔案並上傳。範例格式如下:
[
{
"instruct": "What processor is integrated into the AIR-100 system?",
"output": "The AIR-100 system is integrated with an Intel Atom Processor E3950."
}
]
- 上傳的 JSON 檔案必須遵循此格式,且檔案大小不應超過 10 MB。
- 上傳後,檔案將在資料集清單中列出,顯示檔案名稱和大小。
- 用戶可以刪除任何已上傳的檔案。

方法 2:透過資料集生成器自動生成資料集
用戶可以上傳 PDF(.pdf)、Word (.docx)、純文字 (.txt) 或 Excel (.xlsx) 文件, 系統將從這些檔案自動生成指定數量的資料集。
重要提示
此自動生成的資料集目前僅支援英文,即使您的原始資料是其他語言。

- 上傳的檔案大小不得超過 10 MB。
- 用戶需要指定要生成的資料集數量,並點擊
開始來啟動程序。 - 如果檔案中的資料不足,可能會出現 資料集數量太小 的訊息。
- 上傳的文件將顯示在文件清單中,每個條目都可以編輯或刪除。
- 系統將顯示生成進度和狀態,如 用戶停止 或 已完成。
- 用戶可以點擊
文件清單中的個別條目來查看生成資料集的詳細內容並即時編輯。
- 點擊
生成資料集檔案允許用戶選擇多個文件並將它們合併為單個 JSON 檔案,可用於後續的微調。
這兩種方法為用戶提供了靈活性,無論他們偏好上傳完全準備好的 JSON 檔案或使用系統工具進行快速資料集生成,都能滿足不同的需求。