首页手记人类意识源自大脑导航系统，人工智能的意识也会如此发展吗？

人类意识源自大脑导航系统，人工智能的意识也会如此发展吗？

标签：

机器学习人工智能自然语言处理

科幻电影《机械姬》中的角色阿娃，由 Alicia Vikander 饰演。图片提供：影片剧照。

一句著名的引言，比如说

“我在思，
故我在，”

法国哲学家勒内·笛卡尔曾简洁地表达过，如果我有足够的自我意识去问“我是否存在？”，那么答案就是明确的“是的！”因为我问了这个问题。

动物的大脑通过一个内部自我和世界的模型来帮助它们生存。_意识_是你对自己存在和世界存在的感知。最基本的意识层次是意识到你的身体与世界其他部分是分开的。还有更多层次的对这种物理分离的感知，有时称为身体自我。它包括你对自身在空间位置的感知，对你能控制自己的身体及其各个部位的感知，以及你只能从一个视角看世界的感知。我们会发现，内部的世界模型还包括认知地图，帮助导航。世界模型还包括心智理论(ToM)，这使我们能将其他动物和人类视为有自己思维的存在。因此，我们预测它们的行为会与无生命的物体不同。对其他生物拥有心智的感受也让我们意识到，让我们也意识到自己也被认为是有心智的存在。

意识经过多年的进化，与智力的进化方式相像，但两者是心智的不同但相关方面。智力更多在于你如何通过学习策略与世界互动以解决问题。不知为何，人们对智力的概念比对意识的概念感觉更不神秘，因此我们先来讨论一下我们是如何认为智力产生的。动物的智力，包括我们人类的智力，随着时间的推移而进化，以增强我们避开捕食者、寻找食物和伴侣的能力，提高我们导航世界的能力。一本解释智力进化过程的优秀书籍是《简明智力史》（A Brief History of Intelligence），作者是 Max Bennett。Bennett 将智力的进化过程分为五个阶段：导向、强化、模拟、心智理论和言语。

Biological intelligence evolution versus machine intelligence evolution. Image by The Quantastic Journal based on author’s information and concept from “A Brief History of Intelligence” by Max Bennett.

_直觉反应_大约在5.5亿年前进化，帮助动物决定是否继续前进或撤退，基于潜在的奖励或惩罚。_强化学习_随后出现，帮助动物根据以往的经验做出下一步行动，以最大化未来获得奖励的机会。_模拟_是指动物能够想象未来的行动及其可能的后果，在采取它认为最佳行动前。所谓的“最佳行动”通常是被认为在未来最有可能带来最大奖励的动作。_心智理论_涉及想象自己和他人有心智和个性的能力。这是ToM能力，即在你的模拟中构建自己和他人的心理，通过合作和竞争提高了成功的可能性。本内特将智能演化的最终阶段称为说话，换句话说就是使用语言，这使得知识能够迅速在不同的头脑之间传播，而无需个体重复投入试错的强化学习过程。

在整个智能演进过程中，动物被认为具有某种“主动性”，即它们会根据当前环境信息和自身经历来选择何时采取何种行动。这种主动性可以被视为一种“自我”的模型，经过数百万年的进化，这种模型在不同方面变得更加自觉。当前人类以及其他可能的动物所具备的这种状态就是我们所说的“自我意识”。接下来我们来回顾一下动物的自我意识是如何进化的，以及这种能力在未来的人工智能中如何发展。

人工智能的发展在很多方面与动物智力的进化相似，随着人工智能的进一步发展，意识也可能逐渐在人工智能中形成，就像它在人类身上形成一样。

你家还是我家

1971年，O’Keefe和Dostrovsky发现了大鼠大脑海马体中的位置细胞。位置细胞在动物处于其环境中的特定位置时会增加放电率，比如在迷宫的一个岔路口。当老鼠处在特定的分叉点时，一个位置细胞就会活跃起来；在迷宫的另一个位置，另一个位置细胞也会活跃起来。该环境内所有位置细胞的集合形成了认知地图（认知地图）。

海马区的位置细胞在导航过程中展现出目标导向的向量场。放电模式由向量场汇聚于某一点来描述。研究者（Jake Ormond 和 John O’Keefe）将其称为汇聚点或 ConSink。(a) 显示所有起始平台和大鼠 3 的目标平台的迷宫。虚线框表示在图 b 中显示的迷宫部分。(b) 组成试验 1 的四个选择的示意图。动物被限制在“次试验起点”处，直到两个相邻平台被抬起，然后通过移动到“选定”平台做出选择。(c) 动物相对于参考点（汇聚点或 ConSink）的方向被计算为相对于直向前方向（0°）的角度。(d) 位置细胞的 ConSink 模式代表性示例。左侧两个面板，在两个单独试验中的路径（白色）和脉冲（红色）。目标平台的周界以黑色显示。中间两个面板，位置场热图（最大放电率（Hz）在右上角表示）和所有路径（灰色）和脉冲（红色）。紧靠右侧，表示在分箱空间中的位置的平均头部方向的向量场。ConSink 以实心红色圆圈表示。最右侧的极坐标图显示了相对于 ConSink 的头部方向分布（来源: https://www.nature.com/articles/s41586-022-04913-9，许可 CC）。

脊椎动物大约在5.2亿年前的寒武纪大爆发时期首次出现。所有脊椎动物，包括哺乳动物，都有海马区，大多数被认为具有定位细胞。定位细胞的功能表明了一种非常原始的意识状态。动物知道自己位于世界中的某个特定位置。这是一种物理上的自我意识体现，考虑到“我”有一个有限且具体的实体，位于世界中的一个特定地点。在世界上众多的物体中，很少有事物具有这种在当前位置识别自身的独特能力。

$Top: Telemetry system on a flying bat, drawn to scale; left: Examples of 3D place cells recorded from the hippocampus of flying bats. 3D representation of the neuron’ spatial firing. Top left: Spikes $red dots$ overlaid on bat’s position $gray lines$; shown also are the spike waveforms on the four channels of the tetrode $mean T SD$. Top right: 3D color-coded rate map, with peak firing rate indicated. Bottom: Convex hull encompassing the neuron’s place field $red polygon$ and the volume covered$

顶部：按比例绘制的插图，展示飞行蝙蝠的遥测装置；左：从飞行蝙蝠的海马体记录的3D位置细胞示例。神经元空间放电的3D表示图。顶部左：红色点表示的脉冲叠加在蝙蝠位置（灰色线）上；同时显示四通道的立体脑电极上的脉冲波形（平均T SD）。顶部右：3D颜色编码的速率图，峰值放电率已标出。底部：神经元的位置场（红色多边形）和蝙蝠飞行时覆盖的体积（灰色多边形）的凸包图形；右边：飞行蝙蝠的海马体中三维空间的编码是均匀且几乎各向同性的。（A到D）来自四只不同蝙蝠（不同颜色表示不同神经元）记录的所有位置场。蝙蝠1到3（A到C）在长方体飞行室中测试，蝙蝠4（D）在立方体笼子中测试。(来源，由Nicholas M. Dotson & Michael M. Yartsev，2013)

2005年，Edvard 和 May-Britt Moser 发现了位于（EC，即内嗅皮层）的网格细胞，它与海马体（定位细胞的所在地）和新皮层（决策中心）相连。网格细胞会在环境中以规则间隔的距离放电，从而形成类似笛卡尔坐标系或环境认知地图上的网格，帮助动物进行导航。网格细胞与其他细胞，包括头部方向细胞 和边界细胞，共同构建了我们及其他动物用于导航世界的认知地图。O’Keefe 和 Mosers 因其在发现大脑导航系统方面的工作而荣获了2014年诺贝尔生理学或医学奖。该模型还包括由我们的定位细胞识别的环境中的关键地标。

这个世界内在的模型是对我们意识到的真实世界的一种初步近似。此时的“自我”模型是在认知地图中表示我们所在位置的有限区域。这类似于你在商场地图上可能看到的指示你所在位置的箭头“📍 这里是您”。比如，地图上的这种箭头可以帮助你确定自己所在的位置。

内嗅皮层还充当海马体与基底核之间的接口，基底核涉及运动控制功能、认知和情感处理。有两个主要大脑回路被广泛认为使用强化学习（RL）：一个快速决策反馈回路围绕着基底核和中脑导水管周围灰质区（VTA），以及一个较慢的反馈回路则涉及前额皮层（PFC）和基底核的纹状体。我们将看到，快速的RL回路在进化过程中出现得更早，且对世界的模型比较慢的RL回路更简单。对世界的更丰富模型则带来了对自身更丰富的模型，以便更好地在世界中导航。

隨著智力的提高，外界和自我的表象模型變得越來越詳細和豐富。最終的自我模型成為我們所說的意識中的關鍵部分。

让我们看看强化学习是如何改进对自我和世界模型的理解的。

增援来了

在人工智能中的强化学习（RL）有两种基本类型：_无模型_和有模型的RL。无模型的RL 接收来自现实世界的输入，学习并操作一种策略来导航这个世界。有模型的RL则可以在不依赖真实世界互动的情况下进行训练，额外具备一个内部的世界动态模型。这种使用内部世界模型进行的训练有时，正如本内特在他的书中提到的，被称为仿真。我们将在下一节中讨论仿真或基于模型的RL。我们先来简单介绍一下无模型的RL，这种无模型的RL在动物和AI中出现较早。

$Model-free RL is used by the Basal Ganglia and the VTA for fast navigation and has been used in AI for several things like a Backgammon playing AI $figure by author.$$

无模型强化学习被基底 ganglia 核和 VTA 用于快速决策，并在 AI 中得到应用，例如用于 Backgammon 游戏的 AI (图源: 作者)。

_无模型RL（见上图） 在动物体内发生在腹侧被盖区（VTA）和大脑的基底节区之间。大脑的奖励系统主要涉及从VTA释放的多巴胺。VTA向边缘系统投射，可以激发好或坏的感觉，并向基底节的背侧纹状体（DS）投射，协调动作。基底节和VTA在大脑中形成了行为-评估 强化学习系统。神经回路中的行为（基底节）部分学会了选择最佳行动，而评估（VTA）评估各种可能的动作，以帮助选择最佳行动。RL中的时间差分(TD)方法使用预测奖励与实际奖励之间的差异作为误差信号来更新行为模型和评估模型。

已经发现，多巴胺浓度在动物大脑中提供了时间差信号，用于更新强化学习中的决策者和评论者部分。这种简单的无模型的演员-评论家强化学习方法早在1992年就被用于一种名为TD-Gammon的人工智能，该人工智能能够以专家水平玩西洋双陆棋。从那时起，已经开发出了更稳定的TD版本。

$In 1992, IBM announced another major step in developing artificial intelligence through games: A program written by Tesauro had taught itself to play backgammon well enough to compete with professional players. That year, TD-Gammon, as it was known, went 19–19 in 38 games at a World Cup of Backgammon event — a far better performance than any backgammon program up to that point $source$.$

1992年，IBM宣布了通过游戏开发人工智能的又一重要进展：Tesauro编写的一个程序自学下国际跳棋，水平足以与职业选手抗衡。当年，该程序被称为TD-Gammon，在世界国际跳棋锦标赛上进行了38场比赛，取得了19胜19负的成绩——这是迄今为止任何国际跳棋程序表现最好的一次（来源）。

Google DeepMind的A3C或许是当前用于AI的无模型actor-critic算法的最新版本。Google团队发布了一项实验，使用A3C展示了一种类似于2014年诺贝尔奖得主的脑部导航系统，通过使用A3C和一种模拟位置细胞的仿生动物或animat，该系统自然地出现了。即使在对原始配置进行随机干扰后，如阻塞跑道和打开墙壁，这种仿生动物依然能够导航迷宫。它的导航表现甚至超过了某些人类专家的表现。这证明了无模型actor-critic强化学习在导航中的进化适应性，就像大多数动物所使用的那样。

古代脊椎动物通过使用无模型强化学习提高了它们的导航技能，这种方法利用了它们大脑中的基底核。这使得它们能够进行操作性条件作用 并具备[关联记忆]的能力。一旦动物通过试错学会了强化学习，它们也获得了与行为和物体相关的感受。VTA向边缘系统和运动控制区域发送信息，因此，边缘系统能够激发与我们行为和所观察到的物体相关的感受，当我们接近目标的过程中。进化到这一阶段时，动物们也发展出了关联记忆。例如，如果我们看到绿色草地通常意味着我们可以找到可以吃的水果（一种奖励），那么看到绿色草地本身可能让我们感到愉快。关联记忆会因我们的个人和集体经验而有所不同，当我们体验不同的事物时，我们每个人都会有独特的感受。如果我将绿色草地与找到水果联系在一起，看到或闻到绿色草地可能会让我感到愉快，但如果你每次看到绿色草地时都会被剑齿虎攻击，那么它可能会让你感到不快。这些感受可能是哲学家所说的质料或当我们意识到世界上不同的事物时所拥有的不同感觉和情绪的开端。

我们需要更大的头脑

距今约2.25亿年前，哺乳动物从脊椎动物演化出来，拥有相对较大的前额叶皮层（PFC）。除了其他功能，这一脑区使得像我们这样的动物能够在脑海中保持环境动态模型。这种动态模型使动物在采取某一行动前进行设想。这种将一种类似“虚拟现实”的表示用于现实世界的能力被称为基于模型的强化学习。一些研究人员表示，当动物能够运用世界动态模型时，意识可能因此出现% 短期记忆。)。

例如，想象一只猴子看到一串香蕉，想要拿到最大的一根。她在心里想不同的方法拿到香蕉。她可以爬上去或者跳上去。她觉得爬上去似乎更安全，于是就爬了上去。这样她成功的机会更大，受伤的风险也更小。

动物这种在采取任何行动之前模拟动作的能力，是意识中称为自传体意识（autonoetic consciousness）的一部分。想象未来可能发生的情景和重构过去的经历，需要有强烈的自我意识，这种持续存在的自我意识在一个动态的世界中运作。

让我们更仔细地看看这种“心理模拟”是如何运作的。研究发现，当一只老鼠在迷宫中寻找奖励时，它会不时停下来向左向右张望，仿佛在权衡每条路径的利弊。在上世纪30年代，科学家们将这种行为称为替代尝试错误（VTE）——暗示老鼠正在思考接下来的选择。

神经科学已经证实了这一观点。科学家发现，当老鼠站在迷宫的岔路口时，它的位置细胞会像它先朝右再朝左移动那样放电，在决定朝左或朝右移动之前。这种神经模式表明，老鼠在做出决定前想象自己位于迷宫的不同位置。老鼠还表现出能够记住过去的经历，并从中获得如何通过迷宫找到奖励的方法的洞察力。将过去的个人经历在脑海中重建以及想象和模拟未来可能出现的情景的能力被称为[心理时间旅行](http://Photo by Karsten Winegeart on Unsplash)。

$Model -based RL uses a Dynamic Model of the Environment to get more samples without the need to take actions in the real world $figure by author$.$

基于模型的RL使用环境动态模型来获取更多样本数据，从而无需在现实世界中采取实际行动（图源：作者）。

AlphaGo 使用无模型强化学习和有模型强化学习来玩围棋游戏Go。它使用有模型强化学习来从当前棋盘位置搜索可能的未来走法。最佳走法的搜索表示为树搜索，其中第一个动作作为树的根，后续动作从根部延伸。需要搜索的动作数量数量级与宇宙中的原子数量相似，因此无法对每个可能的走法进行全面评估。采用了一种启发式方法来获得足够好的解。通过剪枝去除不太可能获胜的路径来减少搜索空间。

一系列未来的可能走法称为一个rollout（走法序列）。一个rollout可以持续到游戏的结束。这会使决策树每个分支上的评估过程非常长。然而，通过在选择一定数量的走法后结束rollout，可以缩短树的长度；这可以通过使用胜率估计，并用批评者提出的实际概率差异来代替实现。此外，树的宽度也在变小。这是通过只搜索具有最高估计胜率的固定数量的走法来实现的。因此，AlphaGo在真正做出落子前会内部执行成千上万个rollout。

动物在采取行动之前会通过模拟几个可能的动作来进行规划。例如，在下象棋时，你可能会考虑四个最佳步骤，并考虑每一步接下来可能发生的情况。基于模型的强化学习（RL）AI也采用了类似的前瞻规划方式。这种规划方式被认为是意识的重要组成部分。模拟的选择是随机采样的，被称为蒙特卡洛搜索。AlphaGo使用的基于模型的RL树状搜索方法称为蒙特卡洛树搜索（MCTS）。

$AlphaGo Master $white$ v. Tang Weixing $31 December 2016$, AlphaGo won by resignation. White 36 was widely praised $source$.$

AlphaGo Master（白方）对阵唐韦星九段（2016年12月31日），AlphaGo通过对手认输获胜，白棋胜出。第36手备受好评（[来源](https://en.wikipedia.org/wiki/AlphaGo#Example_game)）。

2015年，AlphaGo结合了A3C和MCTS，在与当时世界排名第一的围棋选手李世石的比赛中赢得了五局围棋，并未输一局。其中，“行动方”预测了最佳的走法，“评判方”评估了这些走法的成功潜力。这种直觉（评判方）与行动模拟（行动方）的结合方式，反映出了人类学习和务实解决许多复杂过程的方式这一点。围棋大师并不需要每次都下出完美的棋局，他们只需击败对手即可，因此，在实际操作中，采用启发式策略可能是最佳选择。

AlphaGo，能下新招

一旦代理实现了目标，比如说走到了迷宫的尽头，它可以一遍遍地重复同样的路线而无需学习任何新东西。这时会加入一些“随机性”。在强化学习里，“探索”指的是代理积极尝试各种随机动作以收集关于环境的信息并尽可能找到最佳策略。相比之下，“运用”是指根据以往经验选择最有利的动作，充分利用已有的知识。关键在于如何平衡这两方面——探索与利用——以最大化环境回报。

为了进行探索，智能体可能会随机选择行为，尝试不确定性大的行为，或者使用诸如“ε-贪心（ε-贪心，一种策略，在存在看似最优的选择时，仍然有一定概率选择随机行为）”这样的技术。相比之下，利用通常涉及根据对环境的理解，选择预期收益最高的行为。

例如，一个智能体试图通过迷宫找到奖励。在探索阶段，机器人会随机走不同的路径来学习迷宫的布局，即使这意味着花费更多时间找到宝藏。在利用期，一旦机器人对迷宫有了充分的了解，它会始终选择最短路径到达宝藏，利用它学到的知识。

这种探索与开发的困境，也称为探索与利用的权衡，是决策制定中一个基本的概念，它出现在许多领域。例如，在AlphaGo与李世石的五局对战的第二局中，AI下出了第37手——这一步棋出现的概率只有万分之一。这一关键且富有创意的一步帮助AlphaGo赢得了比赛，并颠覆了几百年的传统观念。AlphaGo学习并使用了一种专家玩家相对不熟悉的策略。这很好的例子说明了我们可以从AI那里学到什么，因为它们可以不断地探索几乎无限的搜索空间来发现我们（所有人）容易忽视的模式。

有意识的类人机器人的未来

类人机器人是未来的人工智能。由于世界是为人类设计并供人类使用的，类人机器人可能最适合在其中运作。类人机器人有可能胜任人类目前从事的任何工作，甚至可能做得更好。这些机器人最有可能使用强化学习学会导航环境，就像动物一样。它们最终需要与人类和其他动物互动，因此心智理论能力将被添加到基于强化学习的导航和运动控制的人工智能模块中。

boston dynamics 一直是人形机器人领域的领导者，这一点从他们机器人跳舞的以下视频中就可以看出。目前，许多公司正准备专注于建造人形机器人及其在现实世界中的模型进行训练。谷歌的 DeepMind 已与 Apptronik 合作生产人形机器人。OpenAI 和 Meta 最近也宣布了他们在开发人形机器人。新公司如 Sanctuary AI、Physical Intelligence 和 Figure AI 也提供人形机器人。其他国家也在开发人形机器人，比如中国的 AI Engine。NVIDIA 已构建了其世界基础模型，利用遵循物理规则的虚拟数据来训练机器人。所以竞赛已经开始，人形机器人将在不知不觉中进入我们的物理世界——我们应该如何为此做好准备呢？

RL 使用的自我模型最终将扩展为能够模拟人类风格（如讽刺和幽默）的情感反应，从而根据人类合作者的声音语调和肢体语言作出适当回应。这将允许更细腻地模拟自我，从而使 AI 的自我模型更接近我们的自我意识水平，更接近于意识。这种内部自我模型不仅需要识别他人的情绪以及自己的情绪，还需要模拟一个在现实世界中导航的物理自我。AI 的 [心智化] 能力，即考虑其他智能体（包括人类和其他 AI）的心理，正在成为 AI 的一个可行选择——可以参考这项工作 https://pmc.ncbi.nlm.nih.gov/articles/PMC10879976/。这种高级的自我意识即将实现，也许很快，第一个机器人就会说：

“我在思考，所以我存在。”

动物智能和自我意识的进化似乎可能在类人机器人中以类似的方式重复。你觉得怎么样呢？有意识的类人机器人会成为现实吗？这会如何改变我们对自己意识的理解呢？你会接受机器人作为朋友、家人或公民吗？

波士顿动力公司的人形机器人正在欢快地跳舞

引用

“人类意识源于大脑导航系统——人工智能的意识是否会以相同方式产生？”
Rick Mammone
神奇期刊
2025年3月期
ISSN 3035–8000

让我们了解一下作者

Rick Mammone，罗格斯大学电气与计算机工程系的荣休教授，发表了众多关于人工智能的科学论文、书籍，并获得了相关专利。他是最早将学术成果转化为实际应用的人工神经网络研究人员之一。例如，他在 语音识别 和 乳腺癌诊断 方面做出了贡献。他的AI创新一直受到神经科学的启发和影响。Rick期待着一个机器人成为我们朋友的美好未来。更多关于Rick的信息，请访问他的维基百科页面这里_。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

噜噜哒

移动开发工程师

手记
篇

粉丝

8

获赞与收藏

26

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31465 353

网络编程入门教程

20个小节 12905 243

Pandas 入门教程

25个小节 18799 353

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

人类意识源自大脑导航系统，人工智能的意识也会如此发展吗？

阅读免费教程