为了账号安全,请及时绑定邮箱和手机立即绑定

如何访问DeepSeek r1的替代方案?

最近很多人因为使用限制和注册限制而难以获取DeepSeek r1。然而,你可以使用其他提供商来访问DeepSeek r1及其相关模型。

deepseek-r1-distill-qwen-32b(这是一个代码或标识符)。

让我们从 deepseek-r1-distill-qwen-32b 开始吧,所以它最容易获取,并且可能在成本、性能和速度之间提供了最佳平衡。

deepseek-r1-distill-qwen-32b 是 r1 的蒸馏版本。该模型通过一种称为知识蒸馏的技术,将大模型的知识转移到一个小模型中,也就是制作而成的。特别是,32b qwen 模型在多个基准测试中表现突出,尤其是在编程方面。

目前只有一个服务商可以为任何人使用此模型:Glama Gateway。此外,你请注意你需要大约80GB的VRAM,以便自行托管此模型。

服务商:

32b的优势在于价格和响应速度。它比官方DeepSeek的r1更便宜,响应速度比r1稍微快一点。

深搜-r1-蒸馏-llama-70b (deepseek-r1-distill-llama-70b)

这是一个深度学习模型的名字。

70b版本的 llama 模型也是 DeepSeek r1 的一个精简版。它基于 llama 模型,也就是说,有更多的提供商。

Groq是能够使用这一模型的知名供应商之一。

https://console.groq.com/docs/models (该链接指向Groq控制台中的模型文档。)

使用Groq的一个好处是它非常快,该模型每秒可以处理多达300多个tokens。

缺点是该模型的速率限制非常严格。根据你的具体需求,当前的速率限制(每分钟30K个令牌)可能不足以满足需求。

您也可以通过Glama — deepseek-r1-distill-llama-70b 访问该模型。作为网关服务商,Glama 稍微放宽了速率限制,并且每分钟最多可以处理 60k 个 token。

还有这些提供商需要评估:

当我发现其他提供商时,我会更新这篇文章。

如果你打算自己托管这个模型,请记得它需要大量的显存(140GB)。虽然可以使用配置较低的机器来托管它,但性能会很差劲。

深度搜寻 r1

最后,如果你想要获取deepseek-r1,你最好的选择仍然是等待deepseek.com解决需求积压。据说他们正在经历DDoS攻击,因此新用户注册目前受限。

其他几个号称提供 R1 的服务商:

我特别提到“宣称提供”,因为目前很多项目暂时无法满足需求。即便你注册了,也可能遇到限流。

不幸的是,对于大多数人来说,自己托管r1并不是一个实际的选择。这是一个671b参数的模型,这意味着你需要至少1,342 vRAM的内存来运行它,这对于任何家庭用户来说都是难以实现的。

如果你发现了其他服务提供商,请在下面留言,我会把它们添加到列表里。

其他 Distill 模型文章

还有许多其他精简版本可供选择。如果你想在本地运行模型,你可以参考GitHub仓库中的基准来评估这些版本。一些较小的模型(如1.5B和7B版本)在你的本地机器上运行起来相对合理,性能也相当不错。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消