DeepSeek-R1蒸馏版本地部署与把玩

发布于 2025-02-07  177 次阅读


今年(2025年)春节期间,这个叫DeepSeek-R1的推理模型一下子成为了茶余饭后的闲聊热点。近到一家老小,远到公司领导,时不时就会打开手机上的App和它聊上几句,就是聊着聊着对方可能会突然甩下一句,“服务器繁忙,请稍后再试”,然后不吱声了。

正因为它非常热门,不论是人工的还是机器的流量都在不间断地访问DeepSeek的网站,经常超时也是没有办法的事情。

反正平时与AI聊天都是休闲向的,比起官网排队,不妨本地部署一个小型的蒸馏版模型玩玩。

1.部署步骤

1.1.安装依赖

在部署DeepSeek-R1蒸馏版前,先把要装的两个软件装好。

用于运行DeepSeek的模型框架Ollama:https://ollama.com/download

用于提供图形化聊天界面的ChatBox:https://chatboxai.app/zh#download

1.2.拉取模型

按下Win+R键,输入cmd回车以启动命令提示符。首先输入ollama命令并回车,已确认该命令可用。

如果命令不可用,或许是因为在安装Ollama前有打开着的命令提示符窗口。把所有命令提示符窗口关掉后再试一次应该就没问题了。实在不行也可以重启大法(不)。

确保ollama命令工作正常后,可以拉取并运行DeepSeek-R1蒸馏版模型了。

访问Ollama官网的这个链接获取对应规格模型的运行命令:https://ollama.com/library/deepseek-r1

默认的规格是7b。b前面的数字越大,对硬件资源的要求也就越高。

我用来部署模型的设备是一台前段时间一直当吉祥物摆着的Precision 3541工作站,显卡是4GB显存的Quadro P620。这个配置跑7b可能会有点卡,不过试试肯定没坏处。

总之,执行以下命令,拉取并运行DeepSeek-R1-7b蒸馏版模型。

ollama run deepseek-r1

模型的拉取速度很迷惑。一会儿很快,一会儿很慢。可以做点其他事情慢慢等拉取完成。

1.3.开放局域网访问

Ollama的API接口默认只给本机访问,可以加2个环境变量,并加1条防火墙规则,使得局域网设备也能访问到接口。

按下Win+R键,输入rundll32 sysdm.cpl,EditEnvironmentVariables回车以打开环境变量编辑页面。

在里面添加变量OLLAMA_HOST,值为0.0.0.0。再添加变量OLLAMA_ORIGINS,值为*

添加完后点击“确定”保存。

DeepSeek-R1蒸馏版本地部署与把玩

按下Win+R键,输入wf.msc回车以打开防火墙高级设置界面,在入站规则中新建一条规则放行TCP 11434端口,保存并启用。

DeepSeek-R1蒸馏版本地部署与把玩

环境变量和防火墙规则配置完成后,在任务栏右侧找到Ollama图标,鼠标右击并点击“Quit Ollama”关闭Ollama,随后再执行ollama run deepseek-r1命令重新启动Ollama并运行DeepSeek R1-7b模型,从而应用新加上的环境变量。

1.4.配置ChatBox

Ollama配置完成后,启动ChatBox,对其进行配置。

API提供方应选择”Ollama API“(选”DeepSeek API“是连到官方API上的)。如果Ollama运行在电脑本地,域名保持http://127.0.0.1:11434不变;如果Ollama运行在局域网内其他电脑上,则将域名IP改成运行Ollama的电脑IP。

如果域名输入没问题,就能在“模型”下拉菜单中选择已经拉取的模型。选好模型并配好其他选项后点击“保存”完成配置。

DeepSeek-R1蒸馏版本地部署与把玩

接下来就可以开始和本地部署的DeepSeek-R1蒸馏版聊天啦。

2.把玩体验

玩点什么好呢?总之先来玩一个老梗吧,让DeepSeek-R1扮演那位冰雪聪明的算术天才试试看。

DeepSeek-R1蒸馏版本地部署与把玩

看起来还不够代入嘛,那就来追加点设定。

DeepSeek-R1蒸馏版本地部署与把玩

加上设定后,DeepSeek-R1终于不情不愿地说出了那个答案。

DeepSeek-R1蒸馏版本地部署与把玩

把玩结束,该来点正经点的对话了。正经版对话先咕一下,等我好好玩过一遍后再更新(笑)。

3.个人吐槽

为啥DeepSeek会突然这么火呢?答案大概是这个模型的性价比很高,能在相对亲民的硬件配置下跑出不错的效果来,狠狠地推了一把AI模型的大众化进度。

话是这么说,实际上用P620显卡跑7b模型确实还是有那么点卡的。看来还是得考虑用台式机来部署。