deepseek本地部署完整指南：小白也能跑通的保姆级教程

发布时间：2026/5/6 20:05:43

说实话，以前听到“本地部署”这四个字，我头都大。总觉得那是程序员的事儿，跟咱们普通打工人没关系。但这两年大模型火成这样，你想想，数据放云端心里总不踏实，万一泄露了咋办？而且每次问问题都要联网，还得看广告，烦不烦？

所以我花了半个月，终于把DeepSeek在本地跑通了。今天不整那些虚头巴脑的概念，直接上干货。如果你显卡还行，内存够大，跟着我做，绝对能行。

先说硬件要求。别听网上那些吹牛的，说什么4G显存就能跑。扯淡！DeepSeek-V3或者R1这种模型，参数摆在那儿。你要是想流畅点，至少得有一张8G显存的显卡，最好是NVIDIA的。内存建议32G起步，16G的话可能会卡成PPT。我当初就是贪便宜买了16G，结果跑的时候风扇响得像直升机起飞，最后还OOM（显存溢出），心态崩了。

第一步，准备环境。别去下那些乱七八糟的一键安装包，容易带毒。老老实实装Anaconda。打开终端，输入conda create -n deepseek python=3.10。这一步很关键，环境隔离做好了，后面少踩很多坑。装完记得激活环境：conda activate deepseek。

第二步，安装依赖。这里有个坑，很多人直接pip install transformers。别这么干！版本不对会报错。你要先装torch，根据你显卡型号选对应的CUDA版本。比如你是RTX 3060，就装CUDA 11.8或12.1。然后pip install transformers accelerate bitsandbytes。注意，bitsandbytes是量化用的，能让模型变小，适合显存不够的朋友。

第三步，下载模型。这一步最耗时。DeepSeek的模型在Hugging Face上，但国内访问慢得像蜗牛。我用了镜像站，速度瞬间起飞。下载下来后，你会看到好几个文件，比如model.safetensors。别急着跑，先看看文件大小，别下错了。

第四步，写代码运行。这里我要吐槽一下，官方文档有时候写得不清不楚。我写了一个简单的Python脚本。

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./deepseek-path"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

text = "你好，请介绍一下你自己"

inputs = tokenizer(text, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

这段代码看着简单，但运行起来容易报错。比如device_map="auto"有时候会识别不到多显卡。如果你有多张卡，得手动指定。还有，显存不够的话，加上load_in_4bit=True，强制量化加载。虽然精度会降一点，但能跑起来啊，对吧？