这图像是通过Craiyon(原名DALL-E Mini)生成的。
近年来,增强的下一个标记预测在AI领域展现出巨大潜力,特别是在数学和编程等复杂推理任务上表现出色。
但如果那不是真正的逻辑推理呢?其实它们可能只是在进行复杂的模式匹配,经过整个互联网和数千人类提供的精选问答数据训练后<cough>RLHF</cough>。
而且显而易见的第二个问题是——如果扩展模型的规模并利用记忆和模式匹配就能完成任务,我们还需要发明人类推理吗?我的意思是,如果通过这种方式能够做到 稳健 地完成任务,我们真的需要发明人类推理吗?
通过完成一项更为枯燥和艰辛的任务,苹果公司的研究人员似乎在回答上述问题方面取得了显著进展——构建可能不受分布偏移和数据泄露影响的基准数据集,并仔细考虑推理中的具体失败测试情况。
大型语言模型进行的数学推理最多也只能说是脆弱的。我这里不打算全文点评这篇论文。
这是一篇非常易读且直白的文章——无需复杂的数学知识,也不需要大型语言模型或机器学习的基础知识(即使是完全没有这些基础知识的好奇读者也能跟随理解)。
GSM-Symbolic: 大型语言模型在数学推理上的局限性 最近大型语言模型(LLMs)的进步激发了人们对它们形式推理能力的兴趣要说,一些引人注目的假设和结论给我留下了深刻的印象:
- 由于这些大型语言模型是基于整个互联网和数千小时的人工标注数据(RLHF)来训练的,现有的基准数据可能更频繁地泄露到模型训练中。实际上,GSMK8K(一个用于测试数学推理的常用基准数据集)在三年前被用来测试GPT-3。这些题目无意中泄露到后续版本的模型中(无论是开源还是其他版本)也不是什么奇怪的事情。
2. 只是对原始GSM-8K数据集进行小幅度修改(如“名称”和“数值”),新数据集在当前所有大型语言模型上的表现都有显著下降。正如作者所说,“如果我们仅仅改变数学应用题的名字,一个小学生成的数学测试分数会相差约10%吗?”
3. 问题复杂度的增加,仅仅通过增加一个步骤,导致大型语言模型预测的显著变化——这表明当前大型语言模型在推理上的脆弱性。
- LLMs无法识别并忽略文字问题中的无关信息,这表明它们对数学概念的理解不够。
人们可能会想说我们也犯了同样的错误。但这只是一种防御性的论点,既不会推动这一领域的进步,也不是一个恰当的比较。我们通常不会花上十亿美元来培养一个婴儿去解答数学应用题。
我的一些个人想法和感受在过去48小时里,这篇论文在推特上引发了各种反应,从悲观的“这个行业公司的估值很快会崩盘”一路走向极端的观点“推理只是幻觉,人类根本不会推理”这样的说法!
但也许现在是时候退一步想想,问自己是否有更合理的中间道路可循?而不是对事实反应过激,我们能否从这些研究人员采取的科学方法和态度中学到一些东西,从而得出结论?
在一个充满人工智能乐观主义者、悲观主义者和末日论者的世界上,这些作者退一步看,回到了机器学习模型开发的基本原理。他们提出了所有负责任的机器学习从业者都应该思考的问题:
1. 会有数据泄露吗? — 很可能会有一些流行的推理基准数据集的数据泄露到了这些超大规模的LLM模型的训练中。很有可能!
2. 面对数据分布变化时,模型会如何表现? — 通过创建现有基准数据集的变体,研究人员发现当前的大模型可能不像我们想象的那样健壮。
3. 能不能把那些艰苦的基础工作放在前面,而不是那些高大上的? — 是的,创建基准数据集,或者思考失败的测试案例,在链式思维提示和代理架构领域并不算很酷。但作者们还是做了这些。
所以也许我们也退一步,用一个更 合理的视角 去理解这篇论文的结论。这是我的最佳尝试 如下:
1. 目前还无法重现结果:在撰写本文时(2024年10月12日),我尚未见到基准数据集及相关的代码。因此,虽然实验设置看起来没问题,但我目前还无法自己重现这些结果。
2. 未测试链式思维解码方法:作者用贪心解码对8个链式思维(CoT)提示样本进行了评估。然而,其他解码方式已经开始显示出从大型语言模型中提取内在推理的更多潜力。 https://arxiv.org/abs/2402.10200
3. 人类确实会推理:假设该论文的发现是准确的,我并不认同认为推理是幻觉的那种虚无主义论点。试着真正解决一个新的脑筋急转弯题目。
4. Transformers模型很有用:无论你怎么说——我每天都使用copilot,它在目前的状态下就已经很有用了。在推理方面,我会尽我所能。我只希望我的AI助手能帮到我。
共同学习,写下你的评论
评论加载中...
作者其他优质文章