首页手记 Gemini...

Gemini 1.5和OpenAI模型在复杂推理题上的较量：IQ和SAT数学题测试

标签：

算法人工智能数学

更新于2024年11月14日，使用Gemini Experimental 1114版本，解决了更多一个问题。

这周人工智能界又忙得不可开交，尤其是OpenAI发布了其o1模型，该模型以先进的推理能力著称，并在编程和数学方面表现出色，特别是在代码和数学计算方面（链接）。谷歌也不甘示弱，最近曝光了自家的模型（目前尚未公开），这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平（链接）。看来这两家公司正在激烈竞争，争夺这个迅速发展的领域的领先地位。

双子星1.5 vs. ChatGPT 4 vs. 开源o1

我看了一个视频，视频通过应用自定义提示，将ChatGPT 4和OpenAI o1进行了对比，以对ChatGPT模型进行深度分析。

观看并进行比较确实很有趣，而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827，并用条件输出提示进行了测试。

双子星 1.5 Pro 带有上下文中的思考链提示版本

为了使其更具挑战性，我还测试了不使用链式思考(COT，即chain-of-thought)的Gemini 1.5 Pro。

你可以在这里找到IQ测试题 here，而SAT数学题则可以在这里找到 here。

结果

Gemini和OpenAI模型的推理题结果

智力题5

这个问题挺有意思的。在视频里，OpenAI的模型给出的答案都不对，但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中，我多次询问了这个问题，发现Gemini有一次回答的是“C. 海豚”。这让我有点意外，我还试了直接调用ChatGPT 4o API的情况，当我把温度设置为0.5时，API给出了正确的答案。

我的几点心得

1 这篇文章没有任何科学测试支持。就像视频中展示的那样，Gemini今天在这些问题上会比OpenAI的模型有更好的结果。

2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE，我自然更关注Google的模型，但这次测试进一步证实了我之前的想法，那就是它们的确很令人印象深刻。

3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确，因此不断探索改进的方法并质疑模型的回答非常重要。

4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示，双子座的总体测试结果都相同，但使用该提示可以提供更详细的答案。

5 这项测试并不评估答案的质量；它只是一个选择题测试。在检查双子座的答案是否符合测试标准时，它得到了8分（满分10分）。

6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而，正如谷歌所强调的，双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

米琪卡哇伊

手记
篇

粉丝

4

获赞与收藏

31

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 30292 1172

算法入门教程

15个小节 33597 711

后端通用面试教程

41个小节 32873 371

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Gemini 1.5和OpenAI模型在复杂推理题上的较量：IQ和SAT数学题测试

阅读免费教程