首页手记 Claude 3.5 十四行詩 vs GPT-4o...

Claude 3.5 十四行詩 vs GPT-4o — 誠實評論

标签：

人工智能自然语言处理算法与数据结构

Anthropic，这家开发了 Claude 系列模型的公司，发布了 Claude 3.5 Sonnet。此时，大家普遍认为 GPT-4 已成为大多数任务（如推理和摘要等）的默认最佳模型。Anthropic 大胆宣称他们的模型设立了新的“行业标准”，衡量智能水平。

此外，如果您想试试，可以在 claude.ai 上免费试用。因此，我们非常兴奋，想要试一试这个模型，并将其与 GPT-4o 进行比较测试。本文从 Claude 3.5 发布的功能介绍开始，并在这几个方面与 GPT-4o 进行对比：代码生成、逻辑和数学推理能力。

主要特点

该模型具有三个主要新特性，使它声称在大多数任务上胜过GPT-4o。

视觉任务的改进。 据他们公布的数据显示，该模型在5个视觉任务中表现出了顶尖性能，其中4个任务尤为突出。

两倍速度。 与GPT-4o或其前身如Claude Opus相比，Claude Sonnet的生成速度翻倍。
Artifacts — 新界面，适用于代码生成和动画等任务

让我们更深入地挖掘这些功能，并与长期占主导地位的大型语言模型之王GPT-4o（GPT-4o）进行比较。

开始吧

首先，我们需要登录到claude.ai网站并启用“artifacts”功能。我们需要进入“功能预览”，在那里启用“Artifacts”，如下所示。

启用后，该软件或工具会在屏幕一侧弹出一个专用窗口，主要用于需要专用窗口的任务，比如编写代码或制作动画。

视觉任务 — 图像理解

为了测试增强的视觉推理能力，我们上传了下面两张图表到Claude Sonnet模型，并提出了一个问题：“你从这些数据中能看出来什么？”

测试视觉推理的图像

克劳德·桑松的回答令人惊叹。它准确地总结了深度学习的进步，说道：“这些数据显示出向更大、更强大的模型发展的趋势。”我们同样从GPT-4o那里收到了类似的回复。因此，为了更好地比较哪个模型更好，我们开始系统地比较这两个模型在四个任务中的表现——编程、带用户界面的编程、数学推理和逻辑推理。

GPT-4o 和哪个更好？

现在我们已经对整体有了一个大致了解，让我们深入研究，并让模型跑一跑。让我们测试代码生成能力、逻辑推理能力和数学推理能力。

代码生成技术

为了代码生成，我将要求两个模型生成玩流行数独游戏的代码。我用相同的提示“写Python代码来玩数独”提示了两个模型。根据这个提示，Claude 3.5和GPT-4生成的代码只能通过命令行进行交互。这在意料之中，因为我们没有指定如何生成UI代码。一些初步的观察如下：

两个模型都能生成干净的无错误代码，
Claude 生成的代码可以选择难度级别，但 GPT-4o 却没有！
在代码生成速度上，Claude 明显比 GPT-4o 更快
GPT-4o 生成的代码经常包含不必要的包

使用UI的代码生成

因为与命令提示符交互并不适合所有人，我希望模型能生成一个带有用户界面的代码。为此，我将提示修改为“编写代码以玩数独游戏”。这一次，我删除了“python”，以防它只生成后端代码。正如预期，Claude 3.5 这次确实生成了一个功能性的用户界面，如下所示。虽然这个用户界面不够健壮和吸引人，但它确实是有用的。

但可惜的是，GPT-4o 没有提供类似的用户界面。它仍然生成带有命令提示的代码段。

逻辑推理谜题

对于第一个谜题来说，我问了下面这个问题：

简去看望吉尔。吉尔是简的丈夫的岳母的丈夫的女儿的唯一女儿。那么简和吉尔是什么关系？

简是吉尔的外甥女。

两个模型都列出了推理步骤，并正确回答了问题。因此，在这种情况下，Claude 3.5 和 GPT-4o 打成平手。

逻辑推理题第二题

对于第二个谜题，我问了下面这个问题：

下列哪个词与其他词差别最大。这种差异与元音、辅音或音节数量无关。选项为：MORE, PAIRS, ETCHERS, ZIPPER

对于这一点，两个模型提出了不同的逻辑推理步骤，得出了不同的结论。Claude 认为“zipper”是唯一一个既可以作为名词又可以作为动词的词。但其他词要么只是名词，要么是形容词。因此，它确定“zipper”为答案。而 GPT-4 则认为“zipper”不是具体的事物，也不是特定类型的人。

这说明我们需要把提示弄得更具体一些，这样就可能会导致平手。

数学题 —— 数学逻辑

数学题 —— 数学推理

注：此处采用了"数学题"和"数学逻辑"两种表达，以更好地反映数学推理的语境。根据上下文需要，可以选择其中一种或保持原翻译。为了符合中文标点习惯，使用了“——”作为分隔符。

因此，让我们来解决一个著名的视觉推理谜题，这个谜题可以通过公式计算得出结果。我将下面的图形作为输入提供给两个模型。

下面的三个圆上都有蓝色的点，这些点位于圆的周长上并通过直线连接。第一个圆上有两个蓝色的点，将圆分成了两个区域。给定一个圆周上有7个点的圆，这个圆最多可以分成多少个区域？

在这种情况下，GPT-4o 得出了准确的答案 57。但 Claude 3.5 得出的答案是 64，这有些偏差。两个模型都给出了逻辑推理步骤来说明它们是如何得出答案的。GPT-4o 中的数学公式格式比 Claude 3.5 更规范。

我们的评价

根据我们的测试，我们得出结论，在代码生成任务中，无论是纯后端代码还是GUI代码，获胜者是Claude 3.5 sonnet。在逻辑推理任务中，双方得分非常接近。但在数学推理任务方面，GPT-4o依然保持领先地位，Claude还未追赶上。

就生成速度而言，Claude无疑领先，因为它比GPT-4更快地生成文本和代码。如果您想看看实时生成文本的速度对比，请观看我们的视频，感受一下。

大家好

希望这有用。

喜欢这篇文章的话，可以关注我在Twitter上的动态，我每天都会分享来自顶尖AI实验室的研究更新。

也请关注我的YouTube频道YouTube频道，我在那里通过视觉方式解释AI概念和论文。

最后来点掌声，让我们一起庆祝你顺利走到这里。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

噜噜哒

移动开发工程师

手记
篇

粉丝

8

获赞与收藏

25

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30809 345

网络编程入门教程

20个小节 12721 239

Pandas 入门教程

25个小节 18600 342

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Claude 3.5 十四行詩 vs GPT-4o — 誠實評論

阅读免费教程