这张照片由 Christopher John 拍摄,来自 Unsplash。
现在已经成为惯例,一个由某模型设定的生成式AI基准测试,会在大约10天或一个月内被另一个模型打破。在这场生成式AI竞赛中,新的纪录是由NVIDIA创造的,该公司发布了一个基于Llama3.1的开源Nemotron-70B模型,击败了主要竞争对手,如GPT4o和Claude3.5 Sonnet。
NVIDIA Nemotron-70B 免费API最棒的一点是,这个模型只有700亿参数,这比Claude3.5或GPT4要少得多。
它在各种评估中表现非常出色:
竞技场硬核模式: 85.0
AlpacaEval 2 LC: 57.6
MT-Bench: 8.98
你可以比较一下为什么Nemotron被视为大事,与其他最先进的大规模语言模型相比。
模型 竞技场硬核 阿帕卡评估2L MT-Bench
Llama-3.1-Nemotron-70B 85.0 57.6 8.98
Claude 3.5 Sonnet 79.2 52.4 8.81
GPT-4o 79.3 57.5 8.74
这些指标显示它在自动对齐基准排行榜上位居榜首,超越了像Claude 3.5 Sonnet和Llama 3.1 405B这样的模型。
如果你第一次听说这些指标:
- 竞技场难题: 此分数反映了模型在竞技场难题基准上的表现,该基准由500个具有挑战性的用户查询组成,这些查询来源于一个用于评估语言模型的众包平台——聊天机器人竞技场。
- 阿帕卡艾韦尔 2 LC: 此指标衡量模型在阿帕卡艾韦尔基准测试中的表现,该基准测试侧重于模型准确响应指令的能力。它使用一组固定的805条一次性的指令(均为一次性指令),这些指令代表典型的用户交互,来源于阿帕卡农场评估集。该数据集旨在体现大语言模型所面临的多种任务与挑战。
- MT-Bench: 此分数表示模型在MT-Bench基准测试中的表现,该基准通过与基线(GPT-4-Turbo)在多个标准上进行比较来评估模型的响应。该基准测试由80个高质量的多轮问题组成,这些问题是为了评估大语言模型的对话能力和指令遵循能力而设计的。
主要是几件事儿
什么是RLHF呢?基于REINFORCE算法的RLHF
新的RLHF奖励模型,例如Llama-3.1-Nemotron-70B-Reward和HelpSte2-Preference Prompts
- 该模型使用了REINFORCE算法,这是一种根据人类评估者反馈的策略梯度法,通过这种方法,模型可以基于其错误来更新参数,并通过最大化其输出的预期奖励来随着时间不断改进。
如果你想阅读的话
REINFORCE (增强学习算法) 算法我们在训练中加入了两个具体的奖励机制。
- Llama-3.1-Nemotron-70B-Reward:Llama-3.1-Nemotron-70B-Reward的主要作用是作为评估对话回复质量的奖励模型。它对对话中助手最后回复的那一轮进行评估,提供一个表示回复质量的得分。
在RLHF(基于人类反馈的强化学习)背景下,奖励模型是这一流程中的关键部分。其功能是将人类的偏好量化为数值,从而指导AI的行为。
- HelpSteer2-偏好提示:这些提示将用户偏好纳入训练数据,帮助模型生成更有帮助且相关性强的回复。
偏好设置2-偏好提示
但是Nemotron真的算是最顶尖的LLM吗?它包括了用户对各种任务的详细反馈,包括了具体的偏好和总体评分。
偏好标注:用户指出了他们喜欢的回复,并解释了他们为何做此选择,丰富了数据集。
标注附有人写的解释,为用户解释偏好背后的原因,更直接且易于理解。
去除了标注者之间存在较大分歧的任务,从而确保高质量的数据。
我觉得不是这样。有几个地方可以反驳。
有限的基准表现- 有限的成功: Nemotron-70B 在三个特定的基准测试中胜出,例如 Arena Hard、AlpacaEval 2 LC 和 GPT-4-Turbo MT-Bench 这几个测试。尽管这些测试结果令人印象深刻,但它们并不足以体现全面的人工智能应用所需的所有能力。
- 多模态功能: GPT-4o 被设计为多模态,这意味着它不仅可以处理和生成文本,还可以处理和生成语音信息、图片和视频。这种多功能性使其在各种任务中表现出色,使其更加适合各种应用场景,包括创意内容创作和复杂数据分析。
- 卓越的编码技能: Claude 3.5 Sonnet 常被赞誉为最佳的编码语言模型(LLM),在生成功能代码片段和高效处理编码查询方面表现出色。然而,Nemotron 在衡量其性能时并未包括针对编码的特定评估,这对许多软件开发者来说非常重要。
- 混合评价: 初始用户评论表明,虽然Nemotron-70B表现不错,但在实际应用中,它的表现并没有比GPT-4o或Claude 3.5 Sonnet更出色。用户们则发现,尽管该模型不错,但它在精炼度和多功能性方面不及竞争对手。
缺少传统基准对照
- 缺乏全面的度量指标:虽然Nemotron在特定对齐基准测试中表现优异,但它未在传统机器学习基准测试中给出结果。这些基准测试评估其在各种任务中的整体表现,这种缺失让人质疑其在各种实际应用中的可靠性。
免费接口在这里
llama-3_1-nemotron-70b-instruct | NVIDIA NIM 经验 构建企业级生成式AI应用程序的领先模型,现在就体验。build.nvidia.com详细步骤位于页面底部。
[nvidia/Llama-3.1-Nemotron-70B-Instruct · Hugging Face我们正在努力通过开放源代码和科学来推动并普及人工智能。](https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct?source=post_page-----46c83d2e516d--------------------------------)
就这样,结束了!试试按照模型页面上提到的方法,用NVIDIA NIMs来使用模型!
口袋里的数据科学欢迎来到《口袋里的数据科学》!深入探索高级AI和数据科学的话题,这些主题在其他地方可能没有得到充分的讲解。更多内容请访问我们的频道www.youtube.com共同学习,写下你的评论
评论加载中...
作者其他优质文章