更新于2024年11月14日,使用Gemini Experimental 1114版本,解决了更多一个问题。
这周人工智能界又忙得不可开交,尤其是OpenAI发布了其o1模型,该模型以先进的推理能力著称,并在编程和数学方面表现出色,特别是在代码和数学计算方面(链接)。谷歌也不甘示弱,最近曝光了自家的模型(目前尚未公开),这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平(链接)。看来这两家公司正在激烈竞争,争夺这个迅速发展的领域的领先地位。
双子星1.5 vs. ChatGPT 4 vs. 开源o1我看了一个视频,视频通过应用自定义提示,将ChatGPT 4和OpenAI o1进行了对比,以对ChatGPT模型进行深度分析。
观看并进行比较确实很有趣,而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827,并用条件输出提示进行了测试。
双子星 1.5 Pro 带有上下文中的思考链提示版本
为了使其更具挑战性,我还测试了不使用链式思考(COT,即chain-of-thought)的Gemini 1.5 Pro。
你可以在这里找到IQ测试题 here,而SAT数学题则可以在这里找到 here。
结果Gemini和OpenAI模型的推理题结果
智力题5这个问题挺有意思的。在视频里,OpenAI的模型给出的答案都不对,但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中,我多次询问了这个问题,发现Gemini有一次回答的是“C. 海豚”。这让我有点意外,我还试了直接调用ChatGPT 4o API的情况,当我把温度设置为0.5时,API给出了正确的答案。
我的几点心得 1 这篇文章没有任何科学测试支持。就像视频中展示的那样,Gemini今天在这些问题上会比OpenAI的模型有更好的结果。 2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE,我自然更关注Google的模型,但这次测试进一步证实了我之前的想法,那就是它们的确很令人印象深刻。 3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确,因此不断探索改进的方法并质疑模型的回答非常重要。 4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示,双子座的总体测试结果都相同,但使用该提示可以提供更详细的答案。 5 这项测试并不评估答案的质量;它只是一个选择题测试。在检查双子座的答案是否符合测试标准时,它得到了8分(满分10分)。 6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而,正如谷歌所强调的,双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。共同学习,写下你的评论
评论加载中...
作者其他优质文章