为了账号安全,请及时绑定邮箱和手机立即绑定

在老显卡上运行DeepSeek模型:RTX 2060也能玩转14B模型

世界对DeepSeek着迷。我只是对它如何重创了我的投资组合感到不满,但这只是暂时的。如果他们的模型训练技术可以被复制,这对整个行业将是有益的。这篇论文并不是讨论训练过程,而是探讨在文档声称不足以运行模型的GPU上执行模型的问题。文档的说法是错误的。我将帮你省钱,避免购买你实际上不需要的新系统。

首先,这是关于运行量化或蒸馏模型。通常的台式电脑运行不了常规模型。那么,量化和蒸馏模型有什么不同呢?量化和/或蒸馏后的模型更小,因此占用的内存较少。这意味着它们运行速度更快。在文章的最后,我会再详细解释一下。

网上很多地方列出了关于这些要求的表格。这里有一个来自 运行DeepSeek-R1的GPU系统要求 的例子,不准确的部分已经明显标出。

DeepSeek 的 VRAM 和 GPU 需求

我的设置
  • RTX 2060 OC版显卡,12GB内存(未超频)
  • 48GB 内存
  • AMD Ryzen 5 5600X(未超频)
  • 1TB M.2 NVMe SSD
  • 使用Ollama提供的模型
  • Windows 11,但通过WSL在Ubuntu中运行模型

这远不及上述表格中系统的性能,但我可以完美运行红圈内的每个模型。你可以在eBay上仅需150美元买到我的GPU。但表格中忽略了另一个关键因素——你需要20到24GB的RAM。你需要20到24GB的RAM。

为什么是Ollama?我尝试了几种方法。我遵循了以下说明:在本地机器上运行DeepSeek-R1模型,见此链接。需要注意的是,Ollama会自动运行,所以不要尝试用“ollama serve”启动,否则你会遇到“地址已被使用”的错误。相反,只需运行模型如下:

运行 ollama deepseek-r1:14b 命令

将 14b 更换成你想要的模型(1.5b、7b、8b 或 14b 中的一个)。

模型规格

模型名称中的“b”或“B”代表亿,指的是模型参数的数量。例如,14b 模型有 140 亿个参数。但这与模型的实际大小并不相同,因为你需要知道每个参数的大小才能计算出模型的大小和内存使用情况。模型参数通常用 32 位、16 位、8 位或 4 位。将参数数量乘以每个参数的位数,然后除以 8 后即得到字节(byte)大小。虽然模型还有其他部分,但这样计算可以让你接近实际大小。

给我看

DeepSeek 使用 RTX 2060 运行 14B 参数模型

视频展示了当我启动WSL并开始运行DeepSeek模型时,主内存和显存是如何增加的。我运行的是据说需要RTX 4080和16GB显存的14b模型。如你所见,并非如此。我没有进行任何调整。不知道是怎么回事哦~

结论部分

我希望这能帮助你运行DeepSeek并进行实验。我发现运行“简单”的1.5b模型并与14b模型对比答案很有趣。1.5b模型的知识面较窄,在某些方面存在不足,无法完成某些任务,并且它提供的答案不够详尽。不过,运行14b模型非常简单,性能也很出色,即使与GPT-4、Claude、OpenAI Mini等其他模型相比也是如此。参见《DeepSeek R1 精简模型在 Ollama 中并非像你想象的那样 | by Kshitij Darwhekar | 2025年1月 | Towards AI》。

整量与蒸馏

对此有很多详细的参考资料,所以我将只概述要点。精简模型是一个“学生”模型,它从更复杂的“老师”模型中学到东西。它是一种迁移学习,但目标是使模型更小,同时保持其高性能。学生模型是通过“老师”模型对提示的响应来进行训练的,也就是使用“老师”模型对这些提示的输出。我见过一些案例,其中常规训练数据和过程也被使用。整个过程更快,花费更少的资金和电力,同时帮助我们创建一个更小、更容易部署并能在较弱系统上运行的模型。一个类比是上一门教你如何通过考试而不是深入学习整个学科的课程。

量化其实是一个更简单的概念。我所在的公司做数据压缩这一行,而模型量化作为压缩的一种,是我研究的重点。一个高精度的模型会用到高精度的参数,比如32位浮点数。这种精度真的有必要吗?这得看情况而定。它可能有助于解决某些问题,但提升不大,而对于大多数模型来说,这些额外的精度其实关系不大。关键在于你需要多少有效数字,以及这些变化对误差率的影响。这方面的研究会用到数值分析的方法。

压缩也可以让模型在不同的架构上运行。例如,你无法在一个16位的微控制器上运行一个32位的模型,但你可以将其量化为16位浮点数(FP16),然后运行它。你还可以进一步量化模型,在8位的微控制器上使用8位整数(INT8)来表示参数。量化就是通过重新编写模型,将参数转换为更低精度的数值表示,忽略每个参数中的高位,从而大幅减小模型大小。32位可以量化为16位、8位,甚至4位(INT4)。量化让你可以在物联网设备和可穿戴设备上运行AI模型。

先进行蒸馏再量化,可以得到显著更小的模型大小。DeepSeek-R1 有 6710亿 8位参数。DeepSeek-R1-Distill-Qwen-14B 有 140亿 4位参数。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

0 评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消