为了账号安全,请及时绑定邮箱和手机立即绑定

Gemini 1.5和OpenAI模型在复杂推理题上的较量:IQ和SAT数学题测试

更新于2024年11月14日,使用Gemini Experimental 1114版本,解决了更多一个问题。

这周人工智能界又忙得不可开交,尤其是OpenAI发布了其o1模型,该模型以先进的推理能力著称,并在编程和数学方面表现出色,特别是在代码和数学计算方面(链接)。谷歌也不甘示弱,最近曝光了自家的模型(目前尚未公开),这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平(链接)。看来这两家公司正在激烈竞争,争夺这个迅速发展的领域的领先地位。

双子星1.5 vs. ChatGPT 4 vs. 开源o1

我看了一个视频,视频通过应用自定义提示,将ChatGPT 4和OpenAI o1进行了对比,以对ChatGPT模型进行深度分析。

观看并进行比较确实很有趣,而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827,并用条件输出提示进行了测试。

双子星 1.5 Pro 带有上下文中的思考链提示版本

为了使其更具挑战性,我还测试了不使用链式思考(COT,即chain-of-thought)的Gemini 1.5 Pro。

你可以在这里找到IQ测试题 here,而SAT数学题则可以在这里找到 here

结果

Gemini和OpenAI模型的推理题结果

智力题5

这个问题挺有意思的。在视频里,OpenAI的模型给出的答案都不对,但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中,我多次询问了这个问题,发现Gemini有一次回答的是“C. 海豚”。这让我有点意外,我还试了直接调用ChatGPT 4o API的情况,当我把温度设置为0.5时,API给出了正确的答案。

我的几点心得
1 这篇文章没有任何科学测试支持。就像视频中展示的那样,Gemini今天在这些问题上会比OpenAI的模型有更好的结果。
2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE,我自然更关注Google的模型,但这次测试进一步证实了我之前的想法,那就是它们的确很令人印象深刻。
3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确,因此不断探索改进的方法并质疑模型的回答非常重要。
4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示,双子座的总体测试结果都相同,但使用该提示可以提供更详细的答案。
5 这项测试并不评估答案的质量;它只是一个选择题测试。在检查双子座的答案是否符合测试标准时,它得到了8分(满分10分)。
6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而,正如谷歌所强调的,双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。
点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消