最近很多人因为使用限制和注册限制而难以获取DeepSeek r1。然而,你可以使用其他提供商来访问DeepSeek r1及其相关模型。
deepseek-r1-distill-qwen-32b
(这是一个代码或标识符)。
让我们从 deepseek-r1-distill-qwen-32b
开始吧,所以它最容易获取,并且可能在成本、性能和速度之间提供了最佳平衡。
deepseek-r1-distill-qwen-32b
是 r1 的蒸馏版本。该模型通过一种称为知识蒸馏的技术,将大模型的知识转移到一个小模型中,也就是制作而成的。特别是,32b qwen 模型在多个基准测试中表现突出,尤其是在编程方面。
目前只有一个服务商可以为任何人使用此模型:Glama Gateway。此外,你请注意你需要大约80GB的VRAM,以便自行托管此模型。
服务商:
32b的优势在于价格和响应速度。它比官方DeepSeek的r1更便宜,响应速度比r1稍微快一点。
深搜-r1-蒸馏-llama-70b (deepseek-r1-distill-llama-70b)这是一个深度学习模型的名字。
70b版本的 llama 模型也是 DeepSeek r1 的一个精简版。它基于 llama 模型,也就是说,有更多的提供商。
Groq是能够使用这一模型的知名供应商之一。
https://console.groq.com/docs/models (该链接指向Groq控制台中的模型文档。)
使用Groq的一个好处是它非常快,该模型每秒可以处理多达300多个tokens。
缺点是该模型的速率限制非常严格。根据你的具体需求,当前的速率限制(每分钟30K个令牌)可能不足以满足需求。
您也可以通过Glama — deepseek-r1-distill-llama-70b 访问该模型。作为网关服务商,Glama 稍微放宽了速率限制,并且每分钟最多可以处理 60k 个 token。
还有这些提供商需要评估:
- https://deepinfra.com/deepseek-ai/DeepSeek-R1-Distill-Llama-70B
- https://novita.ai/models/llm/deepseek-deepseek-r1-distill-llama-70b
当我发现其他提供商时,我会更新这篇文章。
如果你打算自己托管这个模型,请记得它需要大量的显存(140GB)。虽然可以使用配置较低的机器来托管它,但性能会很差劲。
深度搜寻 r1最后,如果你想要获取deepseek-r1
,你最好的选择仍然是等待deepseek.com解决需求积压。据说他们正在经历DDoS攻击,因此新用户注册目前受限。
其他几个号称提供 R1 的服务商:
- https://novita.ai/models/llm/deepseek-deepseek-r1 深渊探寻R1
- https://fireworks.ai/models/fireworks/deepseek-r1 深渊探寻R1
我特别提到“宣称提供”,因为目前很多项目暂时无法满足需求。即便你注册了,也可能遇到限流。
不幸的是,对于大多数人来说,自己托管r1并不是一个实际的选择。这是一个671b参数的模型,这意味着你需要至少1,342 vRAM的内存来运行它,这对于任何家庭用户来说都是难以实现的。
如果你发现了其他服务提供商,请在下面留言,我会把它们添加到列表里。
其他 Distill 模型文章还有许多其他精简版本可供选择。如果你想在本地运行模型,你可以参考GitHub仓库中的基准来评估这些版本。一些较小的模型(如1.5B和7B版本)在你的本地机器上运行起来相对合理,性能也相当不错。
共同学习,写下你的评论
评论加载中...
作者其他优质文章