科技发展速度极快,我们似乎总是不断收到新的更新和改进的大语言模型(LLM)。当涉及到编程相关工作时,Claude 3.5 Sonnet 长期以来一直领先。但在这一领域,它是否仍然是最佳选择,还是已经被如今层出不穷的新LLM模型所超越了?
我想看看这些LLM模型进步了多少,所以我做了一个测试,看看哪个模型能表现得最好。这篇文章是我之前在社交媒体上发的一篇帖子的后续。我让不同的AI模型建一个简单的宝可梦游戏,结果令人惊讶不已。
我用的是这个提示
使用JavaScript创建一个简单的1v1 Pokémon对战游戏,并使用从这个网站的精灵图 https://pokemondb.net/sprites
这是我在社交媒体上发起的讨论:
在第一阶段的测试中,我使用了Claude 3.5 Sonnet、DeepSeek R1 和 ChatGPT-4。在第二阶段的测试中,我使用了更多的大型语言模型 (LLMs) 以便更全面地了解当前可用的模型能力。以下是一些测试的大型语言模型:
- 深索R1
- 双子座2.0 闪电思维实验版
- Grok 2
- 米斯蒂尔
- o3-mini(中等推理 - 风帆冲浪)
- Qwen2.5-Max
- 克劳德3.5 十四行诗篇
随着第二阶段的测试,我设计了一个更复杂的提示,以了解这些大型语言模型在构建更复杂的应用程序时的智能程度,特别是那些需要复杂逻辑和思考的。我觉得,游戏总是测试这种类型的用例的好方法。
这些测试的目的是看看AI在只收到一次提示后能做什么。当然,我预计在用户进行更多链式提示后,它们们能做得更多。
我用的是这个提示:
使用JavaScript创建一个1对1的宝可梦战斗游戏,并使用来自这个网站的宝可梦的精灵图片https://pokemondb.net/sprites。确保玩家可以在战斗中切换两个不同的宝可梦,并根据宝可梦的类型和属性设定伤害。每个宝可梦至少应该有四种可以使用的招式。玩家的宝可梦等级为5,而敌方宝可梦等级为7。考虑等级差异在战斗中的影响,例如,等级较高的宝可梦会有更多的生命值等。
你可以在我的GitHub上的主页里面找到所有的宝可梦游戏作品:https://github.com/andrewbaisden/pokemon-battle-game
_battle.js
文件是由 LLM 生成的原始文件,这些文件原本是损坏的。Claude 修复了该文件夹中的 battle.js
文件。
这些是我的测试结果,我会给他们打五星评分,这样你可以看出哪些表现得比较好,哪些还有改进的空间。
深搜R1
LLM表现
DeepSeek R1 花了一些时间才构建系统并开始编写代码。回复速度有些慢,因为这项任务需要大量的思考。DeepSeek R1 思考了大约 300 秒(即 5 分钟),这大约是 DeepSeek R1 在我使用它时最长的思考时间。尽管如此,这个思考过程还是挺有意思的,我没有为这个任务设定时间限制,所以我并不介意它多花一些时间,只要它能完成任务。
游戏用户体验与逻辑
遗憾的是,游戏的基本功能尚未完全实现。宝可梦有生命值显示条,有四个可用技能,但这些技能都是通用的,没有特定名称,就像其他游戏中的那样。此外,只能使用一次技能,之后所有按钮都会变灰,无法再次使用,这意味着无法继续进行游戏。另外,敌方宝可梦没有图像或动画,只显示为空白框。设计简单,但需要更多的指引和提示来让游戏变得可玩。
双子 2.0 闪电思维实验项目
LLM表现
Gemini 2.0 Flash大约用了15秒回应提示,这算挺快的。
游戏用户体验与逻辑
我快速响应的提示并没有影响游戏的表现,因为它创建了一个功能完善的游戏,设计相当不错。动画化的宝可梦、生命值条、四招以及更换宝可梦的能力,还有一个显示战斗中所有技能的输出框。这绝对是这次测试中最好的游戏之一。
搞懂2
LLM性能
Grok 2 不具有推理能力或思维链条。它大约用了一分钟来处理这个提示。
游戏用户体验
不幸的是,它所提供的代码库有问题,无法运行。我决定使用Claude 3.5 Sonnet通过Windsurf IDE调试代码,并在一次提示后就让它正常运行了。我没有为DeepSeek R1做同样的事,因为它当时还能勉强玩,而Grok 2版本的bug太多,根本无法玩。
修复了代码库后,我可以看出,Grok 2实际上设计并开发了一个非常漂亮的游戏。这款游戏基本上达到了我最初设定的基本要求,这还不错。不过因为代码库一开始就有问题,Claude不得不修复,所以在这方面稍微扣了些分。
Mistral
大模型的表现
生成代码基大约花了2秒钟,这比我在所有测试的大模型中看到的都要快。
游戏的用户体验和逻辑
Mistral 只用了两秒钟就创建了一个功能齐全的游戏!虽然设计很简单,但基本逻辑却符合预期。
o3-mini(中等难度 - 风帆冲浪)
LLM性能表现
制定构建应用的行动计划花了大约5秒钟。然后,在我创建了空的 index.html
styles.css
和 battle.js
文件后,生成这些文件的大约10秒钟。
游戏界面和逻辑
设置完成后,第一次尝试就成功创建了一个运行正常的应用程序!游戏按预期运行,并满足我在提示中设定的任务需求。如果要提出一点意见的话,就是所有的动作按钮名称都是一些通用名称,比如“攻击1”、“攻击2”等,虽然在输出画面上显示了具体使用的动作名称。如果动作按钮能够与输出中显示的名字匹配,那就更好了。
Qwen2.5-Max
大模型的表现
生成一个代码库大约用了一分钟,还算不错。
游戏用户体验与逻辑
JavaScript 文件存在错误,尽管 HTML 可以在浏览器中运行。功能无法实现,所以我通过 Windsurf IDE 来调试代码。经过一次提示后就解决了问题,使它恢复正常运行。
游戏可以运行,但还有待改进。游戏已经实现了我在最初的描述中提到的功能,然而,游戏逻辑还有很多需要改进的地方。首先,在切换宝可梦时,攻击技能没有变化,对于新的宝可梦来说就不再适用了。其次,伤害似乎总是1,如果宝可梦的生命值是100,这会让战斗变得非常漫长……
克劳德 3.5 十四行诗作品
大模型性能
生成一个代码基大约需要1分钟,就挺可以的了。
游戏用户体验及逻辑
游戏功能上手简单,但是它使用了占位图片来展示神奇宝贝,并要求用户手动下载并替换占位图片。不过,至少它提供了如何操作的说明。这可能是由于Claude无法像其他大型语言模型那样上网搜索,因此无法查阅相关文档。值得注意的是,我是在Claude的官网上做的这个测试。如果我用像Windsurf这样的IDE,它可能就能成功了。
这是唯一一个有动态生命值条的游戏,这很酷。不过我对这个游戏的逻辑有些怀疑。要么敌人宝可梦就是特别强,要么玩家的宝可梦每次攻击似乎都会伤害到自己,因为它们的生命值迅速下降。😂 另外,这个游戏里没有电属性的宝可梦,但却有电属性的攻击,这挺奇怪的。😂
注:图片链接保持不变,描述为“克劳德在宝可梦游戏中”。
总结一下看到人工智能的发展和它将走向的方向真是令人惊叹。今天,我们了解了一些最先进LLM模型的现状。从一个提示就能生成相当复杂的代码库,这真是令人印象深刻。此外,考虑到我用的提示虽然详细但还不完全,AI模型仍然能够理解我大部分的意思,这说明它们在这个领域已经非常有用。
这个测试并不是非常科学,而是一个快速且有趣的测试,旨在了解这些模型在几乎没有任何人类干预的情况下从零开始构建的能力。根据这项简短的测试,我会给每个大语言模型在这次测试中的评分和排名如下:
AI LLM | 评分 |
---|---|
DeepSeek R1 | ⭐️ |
Gemini 2.0 Flash 快速思考 | ⭐️⭐️⭐️⭐️⭐️ |
Grok 2 | ⭐️⭐️⭐️ |
Mistral | ⭐️⭐️⭐️⭐️ |
o3-mini (中等程度的推理能力 - Windsurf) | ⭐️⭐️⭐️⭐️ |
Qwen2.5-Max | ⭐️⭐️ |
Claude 3.5 Sonnet | ⭐️⭐️⭐ |
不幸的是,DeepSeek R1 在这次测试中只得到了 1 星,因为游戏未能完全正常运行。令人惊讶的是,Gemini 2.0 Flash 居然获得了满分 5 星。Grok 2 只得到了 3 星,因为代码需要修复,而这个修复工作是由 Claude 完成的。
Mistral 和 o3-mini(中等推理能力)生成的游戏还算可以。而 Qwen2.5-Max 创建的游戏需要 Claude 调试代码才能正常运行。但游戏的逻辑还有待改进,因为攻击只造成 1 点伤害,这样的攻击几乎无用,所以赢得游戏会很无聊……😂
最后,克劳德只得到了3星,因为游戏的规则有点古怪,并且因为它没有联网,无法显示宝可梦的图片,而其他游戏可以做到这一点。不过它还是值得表扬的,因为它修复了两个坏掉的代码库,并在一次提示后就让那些游戏运行起来了!如果我当时在像 Windsurf 或 Cursor 这样的 IDE 中使用克劳德 3.5 版本,它很可能会取得更好的结果。
了解最新的科技、编程、工作效率和人工智能动态。如果你喜欢这些文章,就来关注我,在我的社交媒体上,我会继续分享与这些话题有关的内容 🔥
点击图片查看大图
共同学习,写下你的评论
评论加载中...
作者其他优质文章