云 GPU 使用大模型
没有 GPU 想要跑大模型简直是噩梦……在等待资源的过程中自己租用了云 GPU 来配置、测试,记录一下详细过程。
云平台上默认有 Ubuntu Windows CentOS 三种系统可选,Windows 肯定是默认排除了,因为一直用的公用服务器是 CentOS 7,就选了 CentOS,不过他们提供的是 9,Stream distribution 感觉还是有点不放心啊……
- 因为要跑的模型 nVidia 也有参与,基本上所有的环境都要求最新 (驱动 560 & cuda 12.6 & torch 2.6+) 的……那就从删除原始环境开始了,改变驱动是需要 root 权限的,所以可用的那公用上古显卡直接 pass……
sudo -i yum remove nvidia* yum remove cuda*
- 根据模型推荐,下载了 NVIDIA-Linux-x86_64-560.35.03.run 包上传安装,按提示操作没什么说的……
- 重启一下
reboot
- 下载 cuda 并安装 (同样,版本是模型的要求)
wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.run bash cuda_12.6.0_560.28.03_linux.run
- 下载 cudnn 并安装
wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-rhel9-9.8.0-1.0-1.x86_64.rpm rpm -i cudnn-local-repo-rhel9-9.8.0-1.0-1.x86_64.rpm dnf clean all dnf -y install cudnn dnf -y install cudnn-cuda-12
- 这里驱动+cuda+cudnn 就都安装好了,可以测试一下
nvcc --version nvidia-smi # 可以看到驱动版本以及 cuda 版本 Wed Mar 19 20:33:37 2025 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 560.35.03 Driver Version: 560.35.03 CUDA Version: 12.6 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA A100-SXM4-40GB Off | 00000000:01:00.0 Off | 0 | | N/A 34C P0 33W / 400W | 141MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+
- 安装 conda,考虑到 conda 包的后续安装,这里先取消 root 权限
# exit wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh bash Anaconda3-2024.10-1-Linux-x86_64.sh
- 创建虚拟环境,安装 torch
conda create -n evo python=3.12 conda activate evo pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
基本要求大功告成!按照模型的手册试试咯~
PS: 这个模型第二次换了 GPU 之后安装的时候遇到个坑 (才过了一周?),明明安装更顺利了结果反复报错……折腾了半天,后来发现是包的版本不对,重装就好了,完事儿!
KeyError: 'recipe'
pip install transformer_engine[pytorch]==1.13
PS 的 PS: 又换了个机器,这次报一堆编译的错误……倒腾许久总结出来,这个模型需要 gcc g++ 之类的 9 以上的版本……
dnf install gcc-toolset-10
scl enable gcc-toolset-10 bash