Anthropic,这家开发了 Claude 系列模型的公司,发布了 Claude 3.5 Sonnet。此时,大家普遍认为 GPT-4 已成为大多数任务(如推理和摘要等)的默认最佳模型。Anthropic 大胆宣称他们的模型设立了新的“行业标准”,衡量智能水平。
此外,如果您想试试,可以在 claude.ai 上免费试用。因此,我们非常兴奋,想要试一试这个模型,并将其与 GPT-4o 进行比较测试。本文从 Claude 3.5 发布的功能介绍开始,并在这几个方面与 GPT-4o 进行对比:代码生成、逻辑和数学推理能力。
主要特点该模型具有三个主要新特性,使它声称在大多数任务上胜过GPT-4o。
- 视觉任务的改进。 据他们公布的数据显示,该模型在5个视觉任务中表现出了顶尖性能,其中4个任务尤为突出。
- 两倍速度。 与GPT-4o或其前身如Claude Opus相比,Claude Sonnet的生成速度翻倍。
- Artifacts — 新界面,适用于代码生成和动画等任务
让我们更深入地挖掘这些功能,并与长期占主导地位的大型语言模型之王GPT-4o(GPT-4o)进行比较。
开始吧首先,我们需要登录到claude.ai网站并启用“artifacts”功能。我们需要进入“功能预览”,在那里启用“Artifacts”,如下所示。
启用后,该软件或工具会在屏幕一侧弹出一个专用窗口,主要用于需要专用窗口的任务,比如编写代码或制作动画。
视觉任务 — 图像理解为了测试增强的视觉推理能力,我们上传了下面两张图表到Claude Sonnet模型,并提出了一个问题:“你从这些数据中能看出来什么?”
测试视觉推理的图像
克劳德·桑松的回答令人惊叹。它准确地总结了深度学习的进步,说道:“这些数据显示出向更大、更强大的模型发展的趋势。”我们同样从GPT-4o那里收到了类似的回复。因此,为了更好地比较哪个模型更好,我们开始系统地比较这两个模型在四个任务中的表现——编程、带用户界面的编程、数学推理和逻辑推理。
GPT-4o 和哪个更好?现在我们已经对整体有了一个大致了解,让我们深入研究,并让模型跑一跑。让我们测试代码生成能力、逻辑推理能力和数学推理能力。
代码生成技术为了代码生成,我将要求两个模型生成玩流行数独游戏的代码。我用相同的提示“写Python代码来玩数独”提示了两个模型。根据这个提示,Claude 3.5和GPT-4生成的代码只能通过命令行进行交互。这在意料之中,因为我们没有指定如何生成UI代码。一些初步的观察如下:
- 两个模型都能生成干净的无错误代码,
- Claude 生成的代码可以选择难度级别,但 GPT-4o 却没有!
- 在代码生成速度上,Claude 明显比 GPT-4o 更快
- GPT-4o 生成的代码经常包含不必要的包
因为与命令提示符交互并不适合所有人,我希望模型能生成一个带有用户界面的代码。为此,我将提示修改为“编写代码以玩数独游戏”。这一次,我删除了“python”,以防它只生成后端代码。正如预期,Claude 3.5 这次确实生成了一个功能性的用户界面,如下所示。虽然这个用户界面不够健壮和吸引人,但它确实是有用的。
但可惜的是,GPT-4o 没有提供类似的用户界面。它仍然生成带有命令提示的代码段。
逻辑推理谜题对于第一个谜题来说,我问了下面这个问题:
简去看望吉尔。吉尔是简的丈夫的岳母的丈夫的女儿的唯一女儿。那么简和吉尔是什么关系?
简是吉尔的外甥女。
两个模型都列出了推理步骤,并正确回答了问题。因此,在这种情况下,Claude 3.5 和 GPT-4o 打成平手。
逻辑推理题 第二题对于第二个谜题,我问了下面这个问题:
下列哪个词与其他词差别最大。这种差异与元音、辅音或音节数量无关。选项为:MORE, PAIRS, ETCHERS, ZIPPER
对于这一点,两个模型提出了不同的逻辑推理步骤,得出了不同的结论。Claude 认为“zipper”是唯一一个既可以作为名词又可以作为动词的词。但其他词要么只是名词,要么是形容词。因此,它确定“zipper”为答案。而 GPT-4 则认为“zipper”不是具体的事物,也不是特定类型的人。
这说明我们需要把提示弄得更具体一些,这样就可能会导致平手。
数学题 —— 数学逻辑数学题 —— 数学推理
注:此处采用了"数学题"和"数学逻辑"两种表达,以更好地反映数学推理的语境。根据上下文需要,可以选择其中一种或保持原翻译。为了符合中文标点习惯,使用了“——”作为分隔符。
因此,让我们来解决一个著名的视觉推理谜题,这个谜题可以通过公式计算得出结果。我将下面的图形作为输入提供给两个模型。
下面的三个圆上都有蓝色的点,这些点位于圆的周长上并通过直线连接。第一个圆上有两个蓝色的点,将圆分成了两个区域。给定一个圆周上有7个点的圆,这个圆最多可以分成多少个区域?
在这种情况下,GPT-4o 得出了准确的答案 57。但 Claude 3.5 得出的答案是 64,这有些偏差。两个模型都给出了逻辑推理步骤来说明它们是如何得出答案的。GPT-4o 中的数学公式格式比 Claude 3.5 更规范。
我们的评价根据我们的测试,我们得出结论,在代码生成任务中,无论是纯后端代码还是GUI代码,获胜者是Claude 3.5 sonnet。在逻辑推理任务中,双方得分非常接近。但在数学推理任务方面,GPT-4o依然保持领先地位,Claude还未追赶上。
就生成速度而言,Claude无疑领先,因为它比GPT-4更快地生成文本和代码。如果您想看看实时生成文本的速度对比,请观看我们的视频,感受一下。
大家好希望这有用。
喜欢这篇文章的话,可以关注我在Twitter上的动态,我每天都会分享来自顶尖AI实验室的研究更新。
也请关注我的YouTube频道YouTube频道,我在那里通过视觉方式解释AI概念和论文。
最后来点掌声,让我们一起庆祝你顺利走到这里。
共同学习,写下你的评论
评论加载中...
作者其他优质文章