跳至主要内容
版本:1.2.0

資料集管理

有效的資料集準備對於機器學習模型的成功微調至關重要。高品質且結構良好的資料集確保模型能夠準確學習並有效泛化。 為了支援這一點,我們的系統提供了兩種靈活的資料集管理方法,既迎合了偏好手動準備的進階用戶,也滿足了尋求自動化解決方案的用戶。

資料集管理功能提供兩種處理資料集的方法:

方法 1:上傳預處理的資料集 JSON 檔案

用戶可以按指定格式準備自己的資料集 JSON 檔案並上傳。範例格式如下:

[
{
"instruct": "What processor is integrated into the AIR-100 system?",
"output": "The AIR-100 system is integrated with an Intel Atom Processor E3950."
}
]
  • 上傳的 JSON 檔案必須遵循此格式,且檔案大小不應超過 10 MB。
  • 上傳後,檔案將在資料集清單中列出,顯示檔案名稱和大小。
  • 用戶可以刪除任何已上傳的檔案。

資料集管理

方法 2:透過資料集生成器自動生成資料集

用戶可以上傳 PDF(.pdf)、Word (.docx)、純文字 (.txt) 或 Excel (.xlsx) 文件, 系統將從這些檔案自動生成指定數量的資料集。

重要提示

此自動生成的資料集目前僅支援英文,即使您的原始資料是其他語言。

資料集生成器

  • 上傳的檔案大小不得超過 10 MB。
  • 用戶需要指定要生成的資料集數量,並點擊 開始 來啟動程序。
  • 如果檔案中的資料不足,可能會出現 資料集數量太小 的訊息。
  • 上傳的文件將顯示在文件清單中,每個條目都可以編輯或刪除。
  • 系統將顯示生成進度和狀態,如 用戶停止 已完成
  • 用戶可以點擊 文件清單 中的個別條目來查看生成資料集的詳細內容並即時編輯。 編輯資料集
  • 點擊 生成資料集檔案 允許用戶選擇多個文件並將它們合併為單個 JSON 檔案,可用於後續的微調。 生成資料集

這兩種方法為用戶提供了靈活性,無論他們偏好上傳完全準備好的 JSON 檔案或使用系統工具進行快速資料集生成,都能滿足不同的需求。