跳至主要内容
版本:1.2.0

安裝

NVIDIA GPU 驅動程式

打開終端機,執行以下指令安裝 NVIDIA CPU 驅動程式。

sudo apt install nvidia-utils-550
sudo apt install nvidia-driver-550
注意

如果您遇到 Unable to locate package nvidia-driver-550 這樣的錯誤。apt 資料庫可能已過期。執行 sudo apt update 更新 apt 資料庫來解決此問題。

現在執行 sudo reboot 重新啟動主機。重新啟動後,執行 nvidia-smi 指令。您應該在輸出中看到有關 NVIDIA GPU 的資訊。

NVIDIA SMI

安裝 NVIDIA Toolkit (CUDA)

在終端機中,執行以下指令安裝 CUDA,即 NVIDIA toolkit。

wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-3

磁碟設定 (LVM 設定)

要配置 AI SSD 否則 GenAI Studio 無法執行全參數微調任務,請遵循以下步驟:

  1. 安裝 LVM

    sudo apt update
    sudo apt install lvm2 xfsprogs
  2. 檢查磁碟位置

    lshw -class disk -class storage | grep -E 'ai100|logical name|version: EIFZ'
    lsblk | grep nvme
    訊息

    確保 ai100 設備識別符為 nvme6n1nvme8n1。如有必要請更新。

  3. 清除磁碟(以防萬一)

    sudo wipefs -a /dev/nvme1n1 /dev/nvme2n1
  4. 建立 LVM

    sudo pvcreate /dev/nvme1n1 /dev/nvme2n1
    sudo vgcreate ai /dev/nvme1n1 /dev/nvme2n1
    sudo lvcreate --type striped -i 2 -I 128k -l 100%FREE -n ai ai
  5. 掛載 LVM

    • 格式化磁碟
      sudo mkfs.xfs -f -s size=4k -m crc=0 /dev/ai/ai -f
    • 掛載磁碟
      sudo mkdir -p /mnt/nvme0
      sudo mount /dev/ai/ai /mnt/nvme0
      sudo chown -R $USER:$USER /mnt/nvme0
  6. 使掛載持久化

    sudo echo '/dev/ai/ai /mnt/nvme0 xfs defaults,nofail 0 0' | sudo tee -a /etc/fstab
    訊息

    要移除永久掛載設定,執行:sudo sed -i '//dev/ai/ai/d' /etc/fstab

  7. 成功範例
    如果 LVM 設定成功,執行 lsblk 指令時您會看到以下成功配置。 LVM 成功

    如果您需要解散 LVM 設定。只需執行以下指令:

    sudo umount /mnt/nvme0
    sudo lvremove -y ai
    sudo pvremove -y /dev/nvme1n1 /dev/nvme2n1 --force --force
  8. 交換檔案設定
    啟用交換空間為 DRAM 提供額外記憶體,如果有足夠空間可讓您增加批次大小。

    • 建立交換檔案
      sudo dd if=/dev/zero of=/mnt/nvme0/swapfile bs=1M count=256k
    • 修改權限
      sudo chmod 0600 /mnt/nvme0/swapfile
    • 初始化交換檔案
      sudo mkswap /mnt/nvme0/swapfile
    • 啟用交換
      sudo swapon /mnt/nvme0/swapfile
    • 使交換永久化
      sudo echo '/mnt/nvme0/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

    如果您想要移除交換,請確保按照以下步驟操作以防止意外的系統問題。

    sudo swapoff /mnt/nvme0/swapfile
    sudo sed -i '//mnt/nvme0/swapfile/d' /etc/fstab
    sudo rm /mnt/nvme0/swapfile

安裝 Docker

  • 執行以下指令卸載所有可能造成衝突的套件:

    for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

    apt-get 可能會報告您沒有安裝這些套件。

  • 設置 Docker 的 apt 儲存庫。

    # 新增 Docker 的官方 GPG 密鑰:
    sudo apt-get update
    sudo apt-get install ca-certificates curl
    sudo install -m 0755 -d /etc/apt/keyrings
    sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
    sudo chmod a+r /etc/apt/keyrings/docker.asc

    # 將儲存庫新增到 Apt 來源:
    echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
    sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    sudo apt-get update
  • 安裝 Docker 套件。

    sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
  • 將用戶新增到 docker 群組。

    sudo usermod -aG docker "$(id -un)"
  • 驗證安裝是否成功。

    docker run hello-world

    此指令下載測試映像並在容器中執行。當容器執行時,它會印出確認訊息並退出。

安裝 NVIDIA Container Toolkit

  • 配置生產儲存庫。

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
    | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
    | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
    | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  • 從儲存庫更新套件清單。

    sudo apt-get update
  • 安裝 NVIDIA Container Toolkit 套件。

    sudo apt-get install -y nvidia-container-toolkit
  • 使用 nvidia-ctk 指令配置容器執行時。

    sudo nvidia-ctk runtime configure --runtime=docker
  • 重新啟動 Docker 守護程序。

    sudo systemctl restart docker

安裝 GenAI Studio

GenAI Studio 製作了一個安裝程式,讓用戶可以輕鬆安裝。通常,您需要做的就是下載它,然後執行它。

訊息

GenAI Studio 安裝檔案約 45GB。為確保系統順利安裝,我們建議至少有 200GB 的可用磁碟空間。

請聯絡您的技術窗口取得安裝檔案。命名格式為 GenAI-Studio_<版本>_setup.run 格式。如果您的下載不在目標主機上,別忘記將下載的安裝程式移動到目標主機。最後, 只需執行下載的安裝程式檔案。在過程中回答問題。您會發現這真的是一個簡單的步驟。

success

檢查您下載的安裝程式檔案權限。如果它沒有附加 execute 權限,只需透過 chmod 0755 INSTALLER_FILE 指令更改它。

啟動 GenAI Studio

如果一切順利,GenAI Studio 應該安裝在 $HOME/Advantech/GenAI-Studio 目錄下。將目錄切換到 ~/Advantech/GenAI-Studio/bin 並執行 ./app-up。幾秒鐘後,開啟瀏覽器以 3001 埠造訪目標主機。

訊息

在 v1.1.0 版本之前,安裝路徑是 $HOME/GenAI-Studio