AMD NPU 大模型跑起来到底咋样?我拿笔记本实测了一周,大实话来了

发布时间:2026/5/2 11:48:46
AMD NPU 大模型跑起来到底咋样?我拿笔记本实测了一周,大实话来了

昨晚熬夜折腾了一宿,头发掉了一把,终于把 AMD 那个啥 NPU 和大模型给跑通了。说实话,刚听到 AMD 搞 NPU 的时候,我心里是打鼓的。毕竟 NVIDIA 的 GPU 早就成了行业标准,CUDA 生态像铁桶一样。这时候 AMD 跳出来搞 NPU,说是为了本地跑大模型,我第一反应是:别又是画饼吧?

但这周我硬是把自己那台老旧的 ThinkPad 翻出来,装了最新的驱动和软件,真刀真枪测了一把。结果嘛,有点意思,也有点让人哭笑不得。

先说结论,别指望用 AMD NPU 去训练什么千亿参数的大模型,那纯属扯淡。它的定位很明确,就是推理,而且是轻量级的推理。比如跑个 Llama-3-8B 或者更小的模型,做做文本总结、简单的代码补全,它是能干的。

我测的时候,用的是最新的 Ryzen AI 9 处理器。这玩意儿号称有 50 TOPS 的算力。听起来挺唬人,但实际体验呢?

我试了个 7B 参数的模型,量化到 4-bit。在 AMD NPU 上跑,速度大概是每秒 15 到 20 个 token。啥概念呢?就是你打字的速度稍微慢一点点,能跟上思路。要是用 CPU 跑,那叫一个卡,每秒也就几个 token,读起来像是在听老式录音机,断断续续的。用 GPU 跑当然快,每秒上百个 token,但问题是,我的笔记本风扇转得像直升机起飞,键盘烫得能煎鸡蛋。

这时候 AMD NPU 的优势就出来了,它不烫,省电,续航能多撑两小时。对于经常出差、在咖啡厅写代码的人来说,这个体验确实比 GPU 舒服。毕竟,谁也不想带着个砖头一样的电源适配器到处跑吧?

但是,坑也不少。第一个坑就是软件生态。AMD 的 ROCm 和 DirectML 虽然进步了,但跟 NVIDIA 的 CUDA 比,还是差点意思。很多开源项目默认只支持 CUDA,你要想在 AMD NPU 上跑,得自己改配置,有时候还得去 GitHub 上找那些没人维护的 issue,看有没有人遇到过同样的 bug。

我那天就卡在模型加载那一步,报错信息全是英文,看着头大。折腾了半天,发现是内存带宽不够,NPU 和 CPU 之间的数据传输成了瓶颈。后来我把模型稍微简化了一下,才跑起来。

还有个问题,就是模型支持度。现在主流的大模型,像 Llama、Mistral,大多针对 GPU 做了优化。在 NPU 上跑,虽然能跑通,但有时候会出现一些奇怪的 bug,比如输出乱码,或者推理速度突然掉到个位数。你得有点耐心,多试几次,或者换个模型试试。

不过,话说回来,AMD NPU 大模型这个方向,我觉得是对的。随着端侧 AI 的普及,大家越来越不想把数据传到云端,隐私和安全很重要。本地跑模型,虽然慢点,但胜在安全、离线可用。AMD 这时候入局,算是踩准了节奏。

如果你是个开发者,或者对新技术感兴趣,不妨试试。别把它当主力工具,就当个辅助。比如,你在写代码时,让它帮你生成一些简单的函数,或者帮你润色邮件,它还是能派上用场的。

总之,AMD NPU 大模型目前还处在“能用,但不好用”的阶段。生态还在完善,软件还在优化。但作为从业者,我看得到它的潜力。毕竟,算力下沉是大趋势,谁能在端侧把模型跑得又稳又快,谁就能赢下一半的市场。

我这篇笔记写得有点乱,毕竟刚跑完测试,脑子还有点晕。但经验都是实打实试出来的。希望能给同样在折腾 AMD NPU 的朋友一点参考。别怕报错,多查多试,总能跑通的。加油吧,各位。