- 软硬件信息
- 提示
- 驱动版本选择
- 安装GPU驱动
- 安装CUDA驱动
- 测试CUDA
- 安装NVIDIA Container Toolkit
- 配置图形界面
软硬件信息
CPU:Hygon C86-3G (OPN:3350) CPU @ 3.0GHz
MEM:DDR4 3200 16GB * 2
GPU:NVIDIA RTX 4500 Ada Generation 24GB(AD103)[10de:27b1]
OS:银河麒麟高级服务器操作系统V11 x86
内核版本:6.6.0-32.7.v2505.ky11.x86_64
GPU驱动:580.119.02
CUDA版本:13.0.0_580.65.06
NVIDIA Container Toolkit版本:1.18.1
提示
- 驱动安装仅能在命令行模式下执行,建议启动SSH,使用SSH连接后执行安装命令。
- 一般安装高级服务器操作系统版本的,机器内一般会自带一个板载显卡(常见的是ASPEED Graphics Family),安装系统的时候不要安装英伟达独显,安装完操作系统以后再安装独显。
- 如果安装完独显后,启动主机卡在启动界面,请将显示线接回板载显卡,重启后肯定还是会卡在启动界面,按Ctrl + Alt + F2即可进入文本模式,此时可以继续执行安装程序。
- 如果启动后ssh无法连接,说明开机网卡没有自启,需要再命令行模式下设置网卡启动模式为自动,重启网络管理服务即可联网。
- 切换到配置文件目录:cd /etc/sysconfig/network-scripts
- 打开配置文件(我这里是ifcfg-enp98s0):sudo nano ifcfg-enp98s0
- 找到“ONBOOT=no”,改为“ONBOOT=yes”
- 重启网络服务:systemctl restart NetworkManager
驱动版本选择
- 驱动官网:https://www.nvidia.cn/drivers/lookup/ ,依次选择:
- NVIDIA RTX PRO / RTX / Quadro
- NVIDIA RTX Series
- NVIDIA RTX 4500 Ada Generation
- Linux 64-bit
- Chinese (Simplified)
- 这里选型的是当前最新版580.119.02,点击直接下载。
- 根据驱动版本到这里“cuda-toolkit-release-notes”,查最新支持的CUDA版本,也可以通过CUDA版本反选GPU驱动版本。
- 直接找到页面内“CUDA Driver”部分,里面对CUDA版本和显卡驱动做了明确的要求。
- 然后打开英伟达CUDA Toolkit Archive,选择需要的CUDA版本,这里拿13.0.0做示例。
- 依次选择“Linux”-“x86_64”-“KylinOS”-“10”-“runfile(local)”,下面会有官方的安装提示,这里我提供一个版本:13.0.0_580.65.06。
- 将GPU驱动文件和CUDA驱动文件下载后上传到操作系统目录中。
- 如果实在不知道应该下哪个版本的CUDA,就先选一个驱动版本,根据流程安装,安装完毕后执行“nvidia-smi”,在打印出来表格的右上角会显示“CUDA Version:”,根据里面显示的版本去下载即可。
安装GPU驱动
提示:1~4步骤不要安装英伟达独显,第四步结束后关闭计算机电源,将独显安装到主机,再开机。
- 检查系统信息
# 查看系统版本
cat /etc/kylin-release
# 查看内核版本(非常重要)
uname -r
# 查看 CPU 架构(x86_64 还是 aarch64)
arch
# 检查显示输出设备是否有NVIDIA Corporation Device
lspci | grep -i vga
- 安装编译环境
sudo dnf groupinstall "Development Tools"
sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
sudo dnf install elfutils-libelf-devel
sudo dnf install pciutils
- 禁用nouveau驱动
# 创建 blacklist 文件
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
# 强制重建 initramfs,并明确排除 nouveau 驱动
sudo dracut --force --omit-drivers "nouveau" /boot/initramfs-$(uname -r).img $(uname -r)
# 验证是否已禁用(已禁用应无输出)
lsinitrd | grep 'nouveau.ko'
# 重启
sudo reboot
# 再次检查(应无输出)
lsmod | grep nouveau
- 检查当前模式,需要处于多用户模式,图形界面下无法安装驱动
# 查看当前默认 target
systemctl get-default
# 如果是 graphical.target,切换为 multi-user
sudo systemctl set-default multi-user.target
# 重启
sudo reboot
- 切换到存放驱动的目录下,开始安装显卡驱动
chmod +x NVIDIA-Linux-x86_64-580.119.02.run
sudo ./NVIDIA-Linux-x86_64-580.119.02.run \
--no-opengl-files \
--no-x-check \
--no-nouveau-check \
--dkms
- --no-opengl-files:服务器通常不需要 OpenGL,避免冲突
- --no-x-check:跳过图形环境检查
- --no-nouveau-check:虽已禁用,但加此参数更稳妥
- --dkms:如果安装了 dkms 包,建议加上,便于内核升级后自动重建模块
- 执行完命令后会进入一个“NVIDIA Software Installer for Unix/Linux”交互界面,依次完成一下选择即可。
- 内核模块类型选择:NVIDIA Proprietary
- 想要使用CUDA就只能用这个,不要选MIT/GPL
- 提示未安装32位兼容运行库:OK
- 是否将内核模块源码注册到 DKMS:Yes
- 是否需要运行 nvidia-xconfig 工具,更新到X配置文件:No
- 如果不需要图形化页面,可以选择No;如果需要图形化页面,可以选择Yes。一般为了最好的兼容性,选择No比较好
- 如果选择了不启用图形界面,未来要启用的话,可以参考
/usr/share/doc/NVIDIA_GLX-1.0/README.txt手动配置X Server
- 提示完成GPU显卡驱动安装以后就会自动退出交互界面,执行命令检查显卡驱动是否正常工作。
nvidia-smi
# 正常情况下会展示以下内容,显示了显卡驱动版本、显卡名称、功耗信息、运行进程等内容
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.119.02 Driver Version: 580.119.02 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA RTX 4500 Ada Gene... Off | 00000000:05:00.0 Off | Off |
| 30% 50C P0 33W / 210W | 0MiB / 24570MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
安装CUDA驱动
- 回到存放驱动的目录下,开始安装CUDA驱动。
sudo sh cuda_13.0.0_580.65.06_linux.run
- 等待一会后会进入一个交互界面,依次选择。
- EULA:输入accept
- CUDA Installer:取消勾选
Driver,只保留 CUDA Toolkit 13.0 和 CUDA Documentation 13.0
- 选择Install
- 等待一段时间,会打印出Summary,看到Toolkit: Installed in /usr/local/cuda-13.0/ 就说明已经完成安装了。
- 配置环境变量。
echo 'export PATH=/usr/local/cuda/bin PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64 LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
- 检查CUDA驱动版本。
nvcc --version
# 正常会输出以下类似内容
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Jul_16_07:30:01_PM_PDT_2025
Cuda compilation tools, release 13.0, V13.0.48
Build cuda_13.0.r13.0/compiler.36260728_0
测试CUDA
- 创建测试目录
mkdir ~/test
cd ~/test
nano test.cu
- 输入以下内容
#include <cuda_runtime.h>
#include <iostream>
int main() {
int nDevices;
cudaGetDeviceCount(&nDevices);
std::cout << "Number of GPUs: " << nDevices << std::endl;
return 0;
}
- 编译运行
nvcc test.cu -o test
./test
# 应该是以下输出
Number of GPUs: 1
没配置Docker的看这篇:银河麒麟高级服务器操作系统V11-软件安装配置(持续更新)
- 仓库地址:https://github.com/NVIDIA/nvidia-container-toolkit
- 选型:v1.18.1
- 下载链接:https://github.com/NVIDIA/nvidia-container-toolkit/releases/download/v1.18.1/nvidia-container-toolkit_1.18.1_rpm_x86_64.tar.gz
- 下载到本地以后,切换到文件所在路径,开始安装。
# 解压
tar -xzf nvidia-container-toolkit_1.18.1_rpm_x86_64.tar.gz
# 进入内部路径
cd release-v1.18.1-stable/packages/centos7/x86_64/
# 根据顺序安装四个包
sudo dnf install -y \
libnvidia-container1-1.18.1-1.x86_64.rpm \
libnvidia-container-tools-1.18.1-1.x86_64.rpm \
nvidia-container-toolkit-base-1.18.1-1.x86_64.rpm \
nvidia-container-toolkit-1.18.1-1.x86_64.rpm
- 配置参数。
# 配置Docker运行时,此命令会自动修改/etc/docker/daemon.json,添加 NVIDIA runtime 配置
sudo nvidia-ctk runtime configure --runtime=docker
# 重启Docker
sudo systemctl restart docker
# 检查Docker配置是否有Runtimes: io.containerd.runc.v2 nvidia runc内容
docker info | grep -i nvidia
- 测试Docker内是否可用CUDA。
# 下载测试镜像,同时创建测试容器
docker run --rm --gpus all nvidia/cuda:13.0.2-cudnn-runtime-ubuntu24.04 nvidia-smi
# 当打印出来类似以下内容,说明调用成功。
==========
== CUDA ==
==========
CUDA Version 13.0.2
Container image Copyright (c) 2016-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
This container image and its contents are governed by the NVIDIA Deep Learning Container License.
By pulling and using the container, you accept the terms and conditions of this license:
https://developer.nvidia.com/ngc/nvidia-deep-learning-container-license
A copy of this license is made available in this container at /NGC-DL-CONTAINER-LICENSE for your convenience.
Wed Jan 14 10:42:24 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.119.02 Driver Version: 580.119.02 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA RTX 4500 Ada Gene... Off | 00000000:05:00.0 Off | Off |
| 30% 53C P0 34W / 210W | 0MiB / 24570MiB | 3% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
- 导入导出镜像,以便后续反复使用
# 保存镜像到当前目录
docker save nvidia/cuda:13.0.2-cudnn-runtime-ubuntu24.04 -o cuda13-runtime.tar
# 离线环境导入镜像
docker load -i cuda13-runtime.tar
配置图形界面
- 环境检查
# 检查是否已安装 Xorg
rpm -q xorg-x11-server-Xorg
# 检查当前运行级别
systemctl get-default
若输出 graphical.target → 系统默认启动图形界面
若输出 multi-user.target → 默认命令行模式(需手动启用 GUI)
- 如果上一步检查没有安装Xorg,这里需要执行安装程序
sudo dnf install -y xorg-x11-server-Xorg xorg-x11-xinit xterm
# 生成 Xorg 配置文件
sudo nvidia-xconfig
- 修改运行模式
# 设置默认 target 为图形模式
sudo systemctl set-default graphical.target
# 启动GUI
systemctl status lightdm
# 重启计算机
sudo reboot
来源:https://www.cnblogs.com/NyanKoSenSei/p/19482404 |