首页手记在老显卡上运行DeepSeek模型：RTX...

在老显卡上运行DeepSeek模型：RTX 2060也能玩转14B模型

标签：

机器学习深度学习人工智能

世界对DeepSeek着迷。我只是对它如何重创了我的投资组合感到不满，但这只是暂时的。如果他们的模型训练技术可以被复制，这对整个行业将是有益的。这篇论文并不是讨论训练过程，而是探讨在文档声称不足以运行模型的GPU上执行模型的问题。文档的说法是错误的。我将帮你省钱，避免购买你实际上不需要的新系统。

首先，这是关于运行量化或蒸馏模型。通常的台式电脑运行不了常规模型。那么，量化和蒸馏模型有什么不同呢？量化和/或蒸馏后的模型更小，因此占用的内存较少。这意味着它们运行速度更快。在文章的最后，我会再详细解释一下。

网上很多地方列出了关于这些要求的表格。这里有一个来自运行DeepSeek-R1的GPU系统要求的例子，不准确的部分已经明显标出。

DeepSeek 的 VRAM 和 GPU 需求

我的设置

RTX 2060 OC版显卡，12GB内存（未超频）
48GB 内存
AMD Ryzen 5 5600X（未超频）
1TB M.2 NVMe SSD
使用Ollama提供的模型
Windows 11，但通过WSL在Ubuntu中运行模型

这远不及上述表格中系统的性能，但我可以完美运行红圈内的每个模型。你可以在eBay上仅需150美元买到我的GPU。但表格中忽略了另一个关键因素——你需要20到24GB的RAM。你需要20到24GB的RAM。

为什么是Ollama？我尝试了几种方法。我遵循了以下说明：在本地机器上运行DeepSeek-R1模型，见此链接。需要注意的是，Ollama会自动运行，所以不要尝试用“ollama serve”启动，否则你会遇到“地址已被使用”的错误。相反，只需运行模型如下：

运行 ollama deepseek-r1:14b 命令

将 14b 更换成你想要的模型（1.5b、7b、8b 或 14b 中的一个）。

模型规格

模型名称中的“b”或“B”代表亿，指的是模型参数的数量。例如，14b 模型有 140 亿个参数。但这与模型的实际大小并不相同，因为你需要知道每个参数的大小才能计算出模型的大小和内存使用情况。模型参数通常用 32 位、16 位、8 位或 4 位。将参数数量乘以每个参数的位数，然后除以 8 后即得到字节（byte）大小。虽然模型还有其他部分，但这样计算可以让你接近实际大小。

给我看

DeepSeek 使用 RTX 2060 运行 14B 参数模型

视频展示了当我启动WSL并开始运行DeepSeek模型时，主内存和显存是如何增加的。我运行的是据说需要RTX 4080和16GB显存的14b模型。如你所见，并非如此。我没有进行任何调整。不知道是怎么回事哦~

结论部分

我希望这能帮助你运行DeepSeek并进行实验。我发现运行“简单”的1.5b模型并与14b模型对比答案很有趣。1.5b模型的知识面较窄，在某些方面存在不足，无法完成某些任务，并且它提供的答案不够详尽。不过，运行14b模型非常简单，性能也很出色，即使与GPT-4、Claude、OpenAI Mini等其他模型相比也是如此。参见《DeepSeek R1 精简模型在 Ollama 中并非像你想象的那样 | by Kshitij Darwhekar | 2025年1月 | Towards AI》。

整量与蒸馏

对此有很多详细的参考资料，所以我将只概述要点。精简模型是一个“学生”模型，它从更复杂的“老师”模型中学到东西。它是一种迁移学习，但目标是使模型更小，同时保持其高性能。学生模型是通过“老师”模型对提示的响应来进行训练的，也就是使用“老师”模型对这些提示的输出。我见过一些案例，其中常规训练数据和过程也被使用。整个过程更快，花费更少的资金和电力，同时帮助我们创建一个更小、更容易部署并能在较弱系统上运行的模型。一个类比是上一门教你如何通过考试而不是深入学习整个学科的课程。

量化其实是一个更简单的概念。我所在的公司做数据压缩这一行，而模型量化作为压缩的一种，是我研究的重点。一个高精度的模型会用到高精度的参数，比如32位浮点数。这种精度真的有必要吗？这得看情况而定。它可能有助于解决某些问题，但提升不大，而对于大多数模型来说，这些额外的精度其实关系不大。关键在于你需要多少有效数字，以及这些变化对误差率的影响。这方面的研究会用到数值分析的方法。

压缩也可以让模型在不同的架构上运行。例如，你无法在一个16位的微控制器上运行一个32位的模型，但你可以将其量化为16位浮点数（FP16），然后运行它。你还可以进一步量化模型，在8位的微控制器上使用8位整数（INT8）来表示参数。量化就是通过重新编写模型，将参数转换为更低精度的数值表示，忽略每个参数中的高位，从而大幅减小模型大小。32位可以量化为16位、8位，甚至4位（INT4）。量化让你可以在物联网设备和可穿戴设备上运行AI模型。

先进行蒸馏再量化，可以得到显著更小的模型大小。DeepSeek-R1 有 6710亿 8位参数。DeepSeek-R1-Distill-Qwen-14B 有 140亿 4位参数。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

0 评论

评论

共同学习，写下你的评论

暂无评论

展开查看更多评论

作者其他优质文章

正在加载中

萧十郎

手记
347篇

粉丝

36

获赞与收藏

166

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31486 353

网络编程入门教程

20个小节 12929 243

Pandas 入门教程

25个小节 18860 355

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

在老显卡上运行DeepSeek模型：RTX 2060也能玩转14B模型

阅读免费教程