别被忽悠了,amd跑大模型cpu 到底行不行?老鸟掏心窝子说真话
做这行十一年,见过太多人拿着几千块的CPU,非要跑70B的大模型。结果呢?卡得连PPT都翻不动,最后骂大模型是智商税。其实不是模型不行,是你选错了工具。今天不扯那些虚头巴脑的参数,就聊聊用AMD CPU跑大模型的真相。很多人问我,买不起4090显卡,能不能用amd跑大模型cpu 来凑…
AMD平台本地部署deepseek,这话题最近火得发烫。
为啥?因为N卡显存贵得让人心碎。
8090随便加点钱就能上24G,但A卡呢?
RX 6700 XT只要两千多,12G显存香不香?
我折腾了半年,从报错到跑通,全是血泪史。
今天不整虚的,直接上干货。
先说结论:能跑,但得受点罪。
很多人劝退,说ROCm环境难配。
确实,Windows下基本别想,直接劝退。
你得用Linux,Ubuntu 22.04是亲儿子。
第一步,装系统。
别用Win11折腾WSL2,延迟高还容易崩。
直接双系统或者装虚拟机,推荐虚拟机,方便快照。
装好Ubuntu后,别急着装驱动。
先去AMD官网下载最新驱动。
注意,一定要选Linux版本的驱动。
装完重启,终端输入vulkaninfo,看有没有报错。
这一步很关键,很多小白直接跳过,后面全是坑。
第二步,配环境。
这里有个大坑,DeepSeek官方主要支持PyTorch。
但PyTorch对AMD的支持一直是个玄学。
你需要安装支持ROCm的PyTorch版本。
别去pip install torch,那肯定是CUDA版的。
去PyTorch官网,选Linux,选Package,选PIP,然后选ROCm 5.7(或者最新稳定版)。
复制那个长命令,粘贴,回车。
这时候你会看到一堆下载进度条。
如果网络不好,建议换个源,比如清华源。
装完别高兴太早,输入python -c "import torch; print(torch.cuda.is_available())"。
如果返回False,恭喜你,环境没配好。
这时候去查一下你的显卡是否在ROCm支持列表里。
RX 6000系列基本没问题,但RX 7000系列可能需要更新内核。
第三步,拉取模型。
DeepSeek的模型文件很大,7B版本大概14G。
你得有个SSD,而且最好是大容量的。
用git lfs拉取模型,不然你会卡在99%不动。
git clone https://huggingface.co/DeepSeek-AI/DeepSeek-Coder-6.7B-Instruct
拉下来后,解压,看看结构对不对。
第四步,推理测试。
别用复杂的UI,先用命令行跑通。
安装vllm或者llama.cpp,推荐llama.cpp,对A卡优化更好。
下载llama.cpp源码,编译。
make LLAMA_HIPBLAS=1。
这一步编译时间很长,去喝杯咖啡。
编译完后,用convert脚本把模型转成gguf格式。
然后运行main,加载模型。
如果看到Token生成速度每秒10-20个token,那就成了。
虽然比N卡慢,但能用啊。
我实测过,RX 6700 XT跑7B模型,推理速度大概每秒15 token。
聊聊天、写写代码完全够用。
要是跑33B的大模型,显存爆了怎么办?
那就得量化,Q4_K_M量化,速度能快一倍。
虽然精度损失一点,但对于日常使用,差异不大。
最后说点心里话。
用A卡跑大模型,就像开手动挡车。
起步有点抖,换挡有点顿挫。
但当你自己修好故障,看着模型流畅运行时,那种成就感,N卡用户不懂。
本文关键词:amd平台本地部署deepseek