为了账号安全,请及时绑定邮箱和手机立即绑定

AI需要的能量加速器

研究人员和企业家们正努力找到降低生成AI高能耗和成本的方法,其中两种最有可能成功。

照片由 israel palacio 拍摄,来源为 Unsplash

作者:Irving Wladawsky-Berger

最近一期的《经济学人》聚焦“人工智能所需的突破”,共有八篇文章围绕这一话题。期中的主要文章指出,“在ChatGPT风靡全球两年之后,生成式人工智能似乎遇到了一个障碍。”

“构建和使用更大的模型的能源成本正在急剧上升,而取得突破也越来越难。

幸运的是,研究者和创业者正在竞相寻找绕过这些限制的方法。他们的聪明才智不仅会推动人工智能的发展,还将决定哪些公司能胜出,投资者能否获利,以及哪个国家能在科技上占上风。

对那些在人工智能上押下重注的投资者来说,这是令人恐惧的,但文章说没有理由惊慌。“许多其他技术也曾面临限制,但最终都因人类的智慧而繁荣起来。”

“目前,人工智能领域的进展已经表明,适当的限制是如何能激发创造力的。”

特别是,《经济学人》提到两项这样的重大创新:开发具有特殊架构的芯片,以尽可能快和节能的方式训练和运行人工智能模型;以及开发更小、更特定领域的模型,这些模型消耗的能量远少于那些依赖大量计算能力的大型模型。

我来谈谈这两个创新点,说说它们。

特定用途的芯片结构

《经济学人》的一篇文章《寒武纪时刻(Cambrian时刻)》解释了过去二十多年芯片架构的关键进展。人工智能推动了芯片架构向更加专业化和紧密地与软件结合的方向发展。文章用地质寒武纪时期作为隐喻,当时地球上的生命经历了显著的多样化过程。到了寒武纪地质时期的末期,生命的形式多样性和复杂性开始接近今天的样子。

在过去几十年里,IT界经历了一场类似寒武纪大爆发的革命。过去50到60年里,我们一直在改进微处理器、内存芯片和其他数字组件,这些改进都是基于集成电路中塞入更多晶体管的能力,从而显著提升了计算性能。

摩尔定律给我们的启示

在他的传奇的1965年论文中,英特尔联合创始人[摩尔]首次提出了后来被称为摩尔定律的经验观察,即从1958年集成电路被发明以来,集成电路上的组件数量每一年都在翻一番。摩尔预测这种趋势至少会持续十年,但后来他将这一预测改为每两年翻一番。

几十年来,中央处理器(CPU)成为了通用计算机的基本组成部分,能够运行任何软件——从操作系统,到中间件(如编译器、数据库系统和浏览器),再到各种各样的应用程序。直到大约2000年代左右,IT硬件和软件公司对芯片制造商每隔几年一次为CPU带来的指数级性能提升感到满意。摩尔定律的辉煌成就令人印象深刻,但,

就像所有好东西一样,特别是那些基于指数增长的事物,大家期待已久的放缓期终于在21世纪初出现了。

大约在同一时期,基于机器学习模型的AI应用开始流行起来。机器学习算法基于人工神经网络——这种架构高度专业化,灵感来源于人脑结构,由模拟神经元层组成,能够并行进行大规模节点的加法和乘法运算。

通用处理器(CPU)并没有设计用来支持神经网络使用的简单算术运算的大规模并行运算。为了并行处理大型神经网络,需要专用的人工智能加速器,这些加速器具有多个核心。例如,最初设计用于加速图像处理和视频游戏复杂图形处理的图形处理单元(GPU),结果发现非常适合处理神经网络的数据,其性能远远超过通用处理器。

在2010年代,基于多层深度学习的神经网络的人工智能应用越来越先进,每一层的输出如果通过了某个阈值,则传递到下一层。基于深度学习的神经网络可以有几层深,甚至超过100层的深度。

到了2010年代晚期,领先的AI应用所需的处理能力远远超过了几年前的应用程序。

资源流失

GPU变得不可或缺,但还远远不够。最近一段时间,基础模型(Foundation Model)和生成式AI应用变得越来越重要,这些应用处理的数据量呈指数级增长,导致内存访问瓶颈问题日益严重。解决这些问题需要更进一步地优化GPU的并行处理能力,为此,谷歌开发了一款专门针对大型神经网络的芯片,即TPU(张量处理单元)。

TPU包含数千个直接连接的巨大网格中的乘加单元。TPU将数据从外部内存加载到其网格中,数据在这网格中流动,就像心跳泵血一样,形成规律的波浪。每次乘法运算后,结果会传递给下一个单元。通过重用先前步骤的数据,TPU减少了对外部内存的访问需求。TPU是一种‘特定领域’(DSA)处理器,专为特定任务而设计。

专门为AI算法设计的DSAs通常比通用CPU或甚至GPU更快且更节能。

更小、更节能型的AI模型

在晶体管发展的大部分时间里,芯片不仅变得更快速,而且耗电量也减少了。不仅如此,“一篇题为《无情的创新机器》的文章”指出,“那一个时代已经结束。”“领先的AI处理器在单个芯片上塞入更多的晶体管或将多个‘芯片块’堆叠在一个封装中,以提升计算性能。但这带来了代价:芯片的能耗大幅增加。”英伟达最新推出的超级芯片Blackwell, “运行速度比其前代快五倍,但这样做导致芯片能耗增加了70%。”

照片由 American Public Power Association 提供,来自 Unsplash

“数据中心将数百甚至数千个这些耗电芯片连接在一起,以运行大型人工智能(AI)模型。据估计,开发ChatGPT的OpenAI在训练其最新模型时消耗的电力超过50吉瓦时。

国际能源机构计算,2022年数据中心消耗了460太瓦时的电力,约占全球电力需求的2%。预计到2026年这一数字将翻倍。

GPU、TPU等高度专业化的AI芯片将提升AI系统的能耗效率及性能。接下来的重大一步是识别出哪些AI功能可以通过使用特定领域的架构(DSAs:Domain Specific Architectures)来显著提升其性能和能效。

微小芯片的世界?

随着时间的推移,依赖超强计算能力的大型AI模型可能会让位于针对特定领域优化的小型AI系统和芯片。

我们再次可以从进化中寻找灵感。我们的大脑是一个高效节能的器官。人类大脑内大约有1000亿个神经元,消耗的能量大约占我们身体总能量的20%,比任何其他器官都多。从计算的角度来说,它每秒可以进行约一亿亿次(也就是1后面跟18个零)数学运算,仅需20瓦的功率。相比之下,橡树岭前沿超级电脑最近展示了每秒一亿亿次的运算能力,但需要一千万倍的功率,也就是20兆瓦,才能达到同样的计算水平。

人类的大脑是如何变得如此高效的?通过使用诸如功能性磁共振成像(fMRI)这样的脑扫描工具,认知和神经科学家已经展示了,大脑的功能,如语言处理、推理和问题解决,都集中在大脑中非常特定的区域。在数千万年的时间里,从最早的灵长类动物祖先开始,我们的大脑作为一个复杂的机能系统,逐渐发展出了许多专门的功能,这些功能共同作用使我们能够生存和繁衍后代,这是自然选择的结果。

最后,用智慧而非蛮力将人工智能推向当前的限制,才是AI所需的关键突破(AI所需的发展)。

“人工智能的时代还处于初级阶段,很多事情还说不准。”接下来的几十年里,我们将会经历很多激动人心的时刻,同时也将面临许多挑战。

这篇博客最初发布于11月28日https://blog.irvingwb.com/blog/2024/11/the-breakthroughs-ai-needs.html

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消