为了账号安全,请及时绑定邮箱和手机立即绑定

NVIDIA新秀Nemotron-70B:超越GPT-4o和Claude 3.5的大型语言模型

最棒的LLM在生成式AI竞赛中领先

这张照片由 Christopher John 拍摄,来自 Unsplash

现在已经成为惯例,一个由某模型设定的生成式AI基准测试,会在大约10天或一个月内被另一个模型打破。在这场生成式AI竞赛中,新的纪录是由NVIDIA创造的,该公司发布了一个基于Llama3.1的开源Nemotron-70B模型,击败了主要竞争对手,如GPT4o和Claude3.5 Sonnet。

NVIDIA Nemotron-70B 免费API

最棒的一点是,这个模型只有700亿参数,这比Claude3.5或GPT4要少得多。

它在各种评估中表现非常出色:

竞技场硬核模式: 85.0

AlpacaEval 2 LC: 57.6

MT-Bench: 8.98

你可以比较一下为什么Nemotron被视为大事,与其他最先进的大规模语言模型相比。

    模型                             竞技场硬核       阿帕卡评估2L       MT-Bench  
    Llama-3.1-Nemotron-70B         85.0              57.6            8.98  
    Claude 3.5 Sonnet              79.2              52.4            8.81  
    GPT-4o                         79.3              57.5            8.74

这些指标显示它在自动对齐基准排行榜上位居榜首,超越了像Claude 3.5 Sonnet和Llama 3.1 405B这样的模型。

如果你第一次听说这些指标:

  • 竞技场难题: 此分数反映了模型在竞技场难题基准上的表现,该基准由500个具有挑战性的用户查询组成,这些查询来源于一个用于评估语言模型的众包平台——聊天机器人竞技场。
  • 阿帕卡艾韦尔 2 LC: 此指标衡量模型在阿帕卡艾韦尔基准测试中的表现,该基准测试侧重于模型准确响应指令的能力。它使用一组固定的805条一次性的指令(均为一次性指令),这些指令代表典型的用户交互,来源于阿帕卡农场评估集。该数据集旨在体现大语言模型所面临的多种任务与挑战。
  • MT-Bench: 此分数表示模型在MT-Bench基准测试中的表现,该基准通过与基线(GPT-4-Turbo)在多个标准上进行比较来评估模型的响应。该基准测试由80个高质量的多轮问题组成,这些问题是为了评估大语言模型的对话能力和指令遵循能力而设计的。
RAG + GraphRAG 课程 (生成式AI)通过此课程学习如何使用RAG和GraphRAG架构与外部文件进行对话 datasciencepocket.gumroad.com
NVIDIA 的 Nemotron 到底有什么特别的地方?

主要是几件事儿

基于REINFORCE算法的RLHF

新的RLHF奖励模型,例如Llama-3.1-Nemotron-70B-Reward和HelpSte2-Preference Prompts

什么是RLHF呢?
  1. 该模型使用了REINFORCE算法,这是一种根据人类评估者反馈的策略梯度法,通过这种方法,模型可以基于其错误来更新参数,并通过最大化其输出的预期奖励来随着时间不断改进。

如果你想阅读的话

REINFORCE (增强学习算法) 算法

我们在训练中加入了两个具体的奖励机制。

  • Llama-3.1-Nemotron-70B-Reward:Llama-3.1-Nemotron-70B-Reward的主要作用是作为评估对话回复质量的奖励模型。它对对话中助手最后回复的那一轮进行评估,提供一个表示回复质量的得分。

在RLHF(基于人类反馈的强化学习)背景下,奖励模型是这一流程中的关键部分。其功能是将人类的偏好量化为数值,从而指导AI的行为。

  • HelpSteer2-偏好提示:这些提示将用户偏好纳入训练数据,帮助模型生成更有帮助且相关性强的回复。

偏好设置2-偏好提示

它包括了用户对各种任务的详细反馈,包括了具体的偏好和总体评分。

偏好标注:用户指出了他们喜欢的回复,并解释了他们为何做此选择,丰富了数据集。

标注附有人写的解释,为用户解释偏好背后的原因,更直接且易于理解。

去除了标注者之间存在较大分歧的任务,从而确保高质量的数据。

但是Nemotron真的算是最顶尖的LLM吗?

我觉得不是这样。有几个地方可以反驳。

有限的基准表现
  • 有限的成功: Nemotron-70B 在三个特定的基准测试中胜出,例如 Arena Hard、AlpacaEval 2 LC 和 GPT-4-Turbo MT-Bench 这几个测试。尽管这些测试结果令人印象深刻,但它们并不足以体现全面的人工智能应用所需的所有能力。
缺少多模态功能
  • 多模态功能: GPT-4o 被设计为多模态,这意味着它不仅可以处理和生成文本,还可以处理和生成语音信息、图片和视频。这种多功能性使其在各种任务中表现出色,使其更加适合各种应用场景,包括创意内容创作和复杂数据分析
编程水平
  • 卓越的编码技能: Claude 3.5 Sonnet 常被赞誉为最佳的编码语言模型(LLM),在生成功能代码片段和高效处理编码查询方面表现出色。然而,Nemotron 在衡量其性能时并未包括针对编码的特定评估,这对许多软件开发者来说非常重要。
用户早期反馈
  • 混合评价: 初始用户评论表明,虽然Nemotron-70B表现不错,但在实际应用中,它的表现并没有比GPT-4o或Claude 3.5 Sonnet更出色。用户们则发现,尽管该模型不错,但它在精炼度和多功能性方面不及竞争对手。

缺少传统基准对照

  • 缺乏全面的度量指标:虽然Nemotron在特定对齐基准测试中表现优异,但它未在传统机器学习基准测试中给出结果。这些基准测试评估其在各种任务中的整体表现,这种缺失让人质疑其在各种实际应用中的可靠性。
怎么用这个模型呢?

免费接口在这里

llama-3_1-nemotron-70b-instruct | NVIDIA NIM 经验 构建企业级生成式AI应用程序的领先模型,现在就体验。build.nvidia.com

详细步骤位于页面底部。

[nvidia/Llama-3.1-Nemotron-70B-Instruct · Hugging Face

我们正在努力通过开放源代码和科学来推动并普及人工智能。](https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct?source=post_page-----46c83d2e516d--------------------------------)

就这样,结束了!试试按照模型页面上提到的方法,用NVIDIA NIMs来使用模型!

口袋里的数据科学欢迎来到《口袋里的数据科学》!深入探索高级AI和数据科学的话题,这些主题在其他地方可能没有得到充分的讲解。更多内容请访问我们的频道www.youtube.com
点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消