AMD显卡部署DeepSeek教程：别被NVIDIA劝退，亲测真香

发布时间：2026/5/2 12:03:07

说实话，刚看到DeepSeek出来那会儿，我心里是打鼓的。毕竟圈子里都在吹CUDA，好像不用N卡就玩不了大模型。我手里正好有几张闲置的AMD卡，RX 6700 XT和3060（哦不对，是6700 XT），心想反正闲着也是闲着，不如折腾一下。结果你猜怎么着？真香定律虽迟但到。

很多人一听AMD就摇头，觉得驱动难装，环境难配。其实吧，只要路子对，比N卡还顺手。今天我就把这套流程捋一捋，纯干货，不整虚的。咱们主要解决的是怎么在Linux环境下，让AMD显卡跑起DeepSeek这种大参数模型。

首先，你得有个Linux系统。Ubuntu 22.04或者24.04都行。别用Windows，虽然也能搞，但坑多。装好系统后，第一步是装驱动。这一步最关键，也是最容易翻车的地方。去AMD官网下载最新的ROCm驱动。注意，别用apt装那个自带的旧版本，一定要下.run文件自己装。装的时候记得把内核头文件也装上，不然编译会报错。

装完驱动，别急着跑模型。先测一下显卡能不能被识别。终端输入rocm-smi，如果能看到你的显卡信息，说明驱动没问题。这时候心里可以松口气了。接下来是环境配置。DeepSeek主要基于PyTorch，所以我们要装支持ROCm的PyTorch。

这里有个坑，很多教程让你直接pip install torch，千万别这么干。必须去PyTorch官网找ROCm版本的安装命令。比如：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

版本号要根据你的ROCm版本来，别搞混了。装完PyTorch，验证一下：

python -c "import torch; print(torch.cuda.is_available())"

如果输出True，恭喜你，基础环境搞定了。这时候你可以开始下载DeepSeek的模型权重了。建议用Hugging Face的命令行工具，速度快还不掉线。

hf download deepseek-ai/deepseek-coder-6.7b --local-dir ./deepseek-6.7b

下载完模型，接下来就是推理了。这里推荐用llama.cpp或者vLLM，但我个人觉得vLLM对AMD的支持还在完善中，有时候会报错。所以，如果你追求稳定，建议用llama.cpp。编译llama.cpp的时候，记得加上-DBUILD_ROCM=ON。这一步编译时间有点长，耐心等着。

编译成功后，运行推理命令：

./main -m ./deepseek-6.7b/gguf-model.gguf -ngl 35 -t 8

这里的-ngl参数很重要，它决定加载多少层到显存里。如果你的显存够大，尽量多加载几层，速度会快很多。我试了一下，6700 XT的12G显存，跑6.7B的模型，量化到Q4_K_M，大概能跑20-30 tokens/s。虽然比不上N卡的4090，但对于日常使用，完全够用了。

当然，过程中肯定会有报错。比如显存溢出，或者算子不支持。这时候别慌，去GitHub的Issues里搜搜，基本都有人遇到过。有时候换个版本就能解决。比如PyTorch版本不对，或者ROCm版本太老。