AMD显卡部署DeepSeek教程:别被NVIDIA劝退,亲测真香

发布时间:2026/5/2 12:03:07
AMD显卡部署DeepSeek教程:别被NVIDIA劝退,亲测真香

说实话,刚看到DeepSeek出来那会儿,我心里是打鼓的。毕竟圈子里都在吹CUDA,好像不用N卡就玩不了大模型。我手里正好有几张闲置的AMD卡,RX 6700 XT和3060(哦不对,是6700 XT),心想反正闲着也是闲着,不如折腾一下。结果你猜怎么着?真香定律虽迟但到。

很多人一听AMD就摇头,觉得驱动难装,环境难配。其实吧,只要路子对,比N卡还顺手。今天我就把这套流程捋一捋,纯干货,不整虚的。咱们主要解决的是怎么在Linux环境下,让AMD显卡跑起DeepSeek这种大参数模型。

首先,你得有个Linux系统。Ubuntu 22.04或者24.04都行。别用Windows,虽然也能搞,但坑多。装好系统后,第一步是装驱动。这一步最关键,也是最容易翻车的地方。去AMD官网下载最新的ROCm驱动。注意,别用apt装那个自带的旧版本,一定要下.run文件自己装。装的时候记得把内核头文件也装上,不然编译会报错。

装完驱动,别急着跑模型。先测一下显卡能不能被识别。终端输入rocm-smi,如果能看到你的显卡信息,说明驱动没问题。这时候心里可以松口气了。接下来是环境配置。DeepSeek主要基于PyTorch,所以我们要装支持ROCm的PyTorch。

这里有个坑,很多教程让你直接pip install torch,千万别这么干。必须去PyTorch官网找ROCm版本的安装命令。比如:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

版本号要根据你的ROCm版本来,别搞混了。装完PyTorch,验证一下:

python -c "import torch; print(torch.cuda.is_available())"

如果输出True,恭喜你,基础环境搞定了。这时候你可以开始下载DeepSeek的模型权重了。建议用Hugging Face的命令行工具,速度快还不掉线。

hf download deepseek-ai/deepseek-coder-6.7b --local-dir ./deepseek-6.7b

下载完模型,接下来就是推理了。这里推荐用llama.cpp或者vLLM,但我个人觉得vLLM对AMD的支持还在完善中,有时候会报错。所以,如果你追求稳定,建议用llama.cpp。编译llama.cpp的时候,记得加上-DBUILD_ROCM=ON。这一步编译时间有点长,耐心等着。

编译成功后,运行推理命令:

./main -m ./deepseek-6.7b/gguf-model.gguf -ngl 35 -t 8

这里的-ngl参数很重要,它决定加载多少层到显存里。如果你的显存够大,尽量多加载几层,速度会快很多。我试了一下,6700 XT的12G显存,跑6.7B的模型,量化到Q4_K_M,大概能跑20-30 tokens/s。虽然比不上N卡的4090,但对于日常使用,完全够用了。

当然,过程中肯定会有报错。比如显存溢出,或者算子不支持。这时候别慌,去GitHub的Issues里搜搜,基本都有人遇到过。有时候换个版本就能解决。比如PyTorch版本不对,或者ROCm版本太老。

我自己在折腾的时候,就遇到过一次显存报错。查了半天发现是量化格式不对,DeepSeek原生支持的是FP16,但为了省显存,我们用了GGUF格式。这时候要注意,GGUF的量化等级选错了,显存占用会飙升。Q4_K_M是个平衡点,既省显存,精度损失也不大。

总之,AMD显卡部署DeepSeek,并不是什么高不可攀的技术。只要你有耐心,愿意折腾,完全能跑起来。而且,随着ROCm生态的完善,未来支持会更好。别被那些“AMD不行”的言论吓住,自己试了才知道。

最后,给大家一个小建议。如果你是多卡用户,记得检查一下PCIe带宽,有时候多卡并行会因为带宽瓶颈导致速度上不去。另外,监控显存占用也很重要,别把卡跑挂了。

这篇amd显卡部署deepseek教程,希望能帮到那些手里有AMD卡,又想玩大模型的朋友。别犹豫,动手试试,你会发现新世界。