为了账号安全,请及时绑定邮箱和手机立即绑定

揭秘AI:深入了解GenAI(生成式AI)技术栈,让我们一起探索。

你听说过OpenAI和Nvidia吗?还有哪些公司也在推动人工智能浪潮,他们之间又是如何相互关联的?

作者供图

几个月前,我参观了纽约的MoMA博物馆,并看到了Kate Crawford和Vladan Joler的作品《AI系统的解剖学》。该作品研究了亚马逊的Alexa产业链,从原材料提取到设备处置。这让我想到了当今生成式人工智能(GenAI)驱动的应用程序背后的所有因素。深入探讨这个问题后,我开始了解GenAI应用程序背后的各种物理和数字工程层次。

我写这篇文章是为了向读者介绍生成式AI产业链的主要组成部分,每个部分的作用,以及每个阶段的主要参与者。在此过程中,我希望阐明推动AI增长的各种业务领域,不同技术如何相互支撑,以及存在的脆弱点和瓶颈。从像谷歌这样的科技巨头和最新的一批初创公司推出的面向用户的应用程序开始,我们将从这些一直到用于制造计算机芯片的沙子和稀土金属。

结束应用构建

从规模较小的初创公司如 Palantir 到大型科技公司如苹果,再到非科技公司如高盛,都在开发人工智能解决方案。图片由作者提供。

科技巨头、企业IT部门以及众多新创公司正在试验GenAI的各种潜在应用场景,还处于早期阶段。这些应用可能是计算机应用新时代的开端,以新的交互系统和前所未有的能力为标志,这些能力包括理解和利用非结构化及过去未被利用的数据源(例如音频数据)。

许多计算领域中最具有影响力的进展来自人机交互(HCI)的改进。从图形用户界面(GUI)的开发到鼠标再到触屏技术,这些进步极大地增强了用户使用计算工具的能力。进一步消除这种界面的摩擦,通过赋予计算机像人一样理解和使用的语言能力,生成式AI模型将进一步提升人机交互的体验。用户可以像指挥一个可靠的个人助手一样,向计算机发出指令和任务。一些在人机交互领域进行创新的产品例子包括:比如智能语音助手。

  • Siri(AI语音助手) — 增强了苹果移动助手的能力,使其能够处理更广泛的请求和问题
  • Palantir的AIP(自主代理) — 通过聊天界面简化大型复杂工具的使用过程,引导用户完成所需的功能和操作
  • Lilac Labs(自动化的语音点餐服务) — 使用语音AI自动化汽车餐厅或快餐店服务中的顾客点餐

GenAI 让计算机系统拥有了以前没有的自主性和灵活性。这种灵活性让应用程序能够处理以前只有人类才能完成的复杂和开放性任务。这些任务以前只属于人类。以下是一些新应用示例,这些应用利用了这种灵活性。

  • GitHub Copilot(编程助手) — 通过根据用户的意图和现有代码生成代码来提升程序员的生产力
  • LenAI(知识助手) — 通过总结会议、提取关键见解并起草通信来节省知识工作者的时间
  • Perplexity(AI搜索) — 通过结合传统互联网搜索和AI生成的摘要,可靠地回答用户问题并引用来源

一群多样化的参与者正在推动这些用例的发展。一大批初创公司在涌现,其中86家Y Combinator的W24批次企业专注于AI技术。像谷歌这样的大型科技公司也推出了GenAI产品和功能。例如,谷歌正在利用其Gemini大语言模型来总结搜索结果。传统企业正在启动重大计划,以了解GenAI如何为其战略和运营提供支持。摩根大通CEO杰米迪蒙提到,AI对于“市场营销、风险管理以及欺诈检测来说是不可思议的。它将帮助你更好地完成工作内容。”随着公司发现AI如何解决问题并创造价值,GenAI的用例和需求将不断增加。

AI模型开发者

变压器架构的示意图。图片由Sing等人在Creative Commons 4.0许可下使用。

随着 OpenAI 的 ChatGPT(基于 GPT-3.5 模型)在 2022 年末发布,GenAI 迅速引起公众注意。如今,像 Anthropic 的 Claude、Google 的 Gemini 和 Meta 的 Llama 这样的模型正在挑战 GPT 的主导地位。模型提供商市场和开发格局仍处于初级阶段,许多问题仍未解决:例如,

  • 特定领域的更小模型是否会变得普遍,还是大型模型会处理所有任务?
  • 在当前的Transformer架构中,模型的复杂性和能力能有多大的进步?
  • 当模型训练接近所有已有人类文本数据的极限时,能力会如何提升?
  • 哪些玩家会挑战OpenAI目前的地位?

尽管推测人工智能的能力界限超出了本次讨论的范围,但生成式AI模型的市场很可能非常庞大(许多知名投资者显然对此非常看好,例如)。那么,这些模型构建者又是如何证明这些高估值并激起这么多热情的呢?

这些公司的研究团队,比如OpenAI,负责做出架构选择,编译和预处理训练数据集,管理训练基础设施等。该领域的研究人员非常稀缺且备受重视;据称OpenAI的工程师平均年薪超过90万美元。很少有公司能吸引并留住具备这种高超专业技能的人才。

编译训练数据集涉及爬取、收集和处理互联网及其他来源(例如,数字化的图书馆)上的所有文本(或音频或视觉)数据。编译完这些原始数据集之后,工程师添加相关的元数据标签,将数据分割成模型处理所需的块,将数据格式化为高效训练所需的文件格式,并采取质量控制措施。

虽然由AI模型驱动的产品和服务市场可能在十年内价值数万亿美元,但许多进入壁垒使得除了资金充足的公司之外,其他公司很难构建前沿模型。最大的进入壁垒是模型训练所需的数百万到数十亿美元的巨额投资。要训练最新的模型,公司要么自己建设数据中心,要么大量采购云服务提供商的数据中心资源。虽然摩尔定律继续迅速降低计算能力的成本,但这被模型规模和计算需求的迅速膨胀所抵消。训练最新的前沿模型要投入数十亿美元的数据中心建设(2024年3月,媒体报道称OpenAI和微软计划投资1000亿美元用于训练下一代模型)。很少有公司能拨出数十亿美元用于训练AI模型(只有科技巨头或资金极其充足的初创公司如Anthropic和Safe Superintelligence才能做到)。

找到合适的人才也非常不容易。吸引这种专门人才不仅需要超过七位数的薪酬,还需要与相关行业和学术界的联系,并提供吸引人的价值主张和未来技术愿景。现有玩家在资金获取和专业人才市场方面占据优势,这将使得新加入者很难撼动其地位。

了解一点关于AI模型市场的发展历史有助于我们理解当前的市场格局以及市场可能如何演变。当ChatGPT出现时,许多人感觉它是一个革命性的突破,但真的是这样吗?还是这只是在开发领域一系列渐进(但令人印象深刻)的进步中的一步?开发ChatGPT的团队基于几十年来行业、学术界以及开源社区公开的研究成果和工具。最值得注意的是,它使用了变压器架构——这不仅是推动ChatGPT的关键洞察力,也是过去五年大多数AI突破背后的驱动力。这种架构最早由Google在2017年的论文《注意力机制就是你所需要的》中提出,是像Stable Diffusion、GPT-4和Midjourney这样的模型的基础架构。2017年那篇论文的作者们已经创立了一些知名的AI创业公司(例如,CharacterAI和Cohere)。

基于通用的变压器架构,是什么使得某些模型能够“胜出”于其他模型?这些因素,如模型大小、高质量的输入数据量以及专有研究,使得模型之间有所区分。模型的大小与性能的提升呈正相关,资金充足的一方可以通过增加模型训练的投资来进一步扩大模型规模。拥有专有数据源的公司,例如Meta公司从其用户群体中获取的数据,以及Elon Musk的xAI从特斯拉的驾驶视频中获取的数据,可以帮助一些模型学习到其他模型无法接触到的内容。GenAI依然是一项高度活跃的研究领域——顶尖人才聚集的研究机构在研究上的突破将部分决定进展的速度。目前还不清楚策略和用例是如何为不同的参与者创造机会的。应用程序开发者可能会利用多个模型来降低依赖风险,或者将特定模型的独特优势与特定应用场景(例如研究、人际沟通)相结合。

云服务提供商及数据中心运营者

云基础设施市场份额图表。图片由 Statistica 根据创用CC许可提供。来源:Statistica。

我们讨论了模型提供商如何投入数百亿美元来构建或租赁计算资源以训练这些模型。这些钱花到哪里去了?其中很大一部分流向了云服务商,例如微软的Azure(用于OpenAI的GPT)和亚马逊的AWS(用于Anthropic的Claude)。

云服务提供商(CSPs)在GenAI价值链中扮演着关键角色,通过提供必要的基础设施来训练模型(它们还经常向最终应用程序开发者提供基础设施,但本节主要讨论它们与模型构建者之间的互动)。主要的模型构建者通常不拥有和运营自己的计算设施(即数据中心)。相反,它们通常从超大规模的云服务提供商(如AWS、Azure和Google Cloud)以及其他提供商那里租用大量的计算资源。

CSPs 提供计算资源(通过向专用微芯片输入电力,数千个这样的微芯片构成了数据中心)。为了训练他们的模型,工程师们会向CSP运营的计算机提供指令,让计算机在其输入数据集上进行复杂的矩阵计算,从而计算出模型权重的数十亿个参数。这一模型训练阶段承担了高额的前期投资成本。一旦这些权重被计算出来(即模型训练完成),模型提供商会使用这些参数来回答用户查询(即在新的数据集上进行预测)。这是一个计算成本较低的过程,被称为推理,同样使用CSP提供的计算能力。

云服务提供商的角色是构建、维护和管理数据中心,在这些中心中生产和使用这种“计算能力”资源。这些提供商的活动包括从供应商(例如英伟达)购买计算机芯片,在专门设施中安装和部署服务器单元,并定期进行物理和数字维护。他们开发软件堆栈来管理这些服务器,并为开发人员提供访问计算能力和部署应用程序的接口。

数据中心的主要运营开支是电力,由人工智能推动的数据中心扩张在未来几十年内可能会大幅增加电力消耗。举例来说,一次标准的ChatGPT查询消耗的能量是普通谷歌搜索的十倍。高盛估计,到十年末,AI需求将使数据中心在全球电力消耗中的份额翻一番。正如我们需要为支持人工智能发展投资大量计算设备一样,我们也需要投资电力来支持这些设备的运行。

从长远来看,云服务提供商及其模型构建的合作伙伴正竞相构建最大的、最强大的数据中心,以训练下一代的模型。未来的数据中心,如微软与OpenAI合作开发的数据中心,例如,将需要成千上万乃至数百万的新一代的微芯片。云服务提供商在建设这些设施上的巨额投资,现在正推动了那些帮助制造微芯片的公司的创纪录的利润,其中,英伟达(设计)和台积电(制造)尤为突出。

微芯片设计师

图片来自 Laura Ockel on Unsplash

到现在为止,大家很可能已经听说过英伟达及其股价因人工智能而飙升的情况。说科技巨头们正在进行一场军备竞赛,而英伟达是唯一的供应商这一说法,已经成为一个老生常谈的话题,但这是真的吗?至少目前来说,是真的。英伟达设计了一种名为图形处理单元(GPU)的计算机芯片,这种芯片对于AI模型的训练至关重要。什么是GPU?为什么它对于生成式AI如此重要?为什么在AI芯片设计的讨论中,人们大多围绕英伟达而非其他供应商?

图形处理单元(顾名思义)最初是为服务计算机图形市场而设计的。制作《侏罗纪公园》等CGI电影和《德军总部》等视频游戏所需的图形需要昂贵的矩阵计算,但这些计算可以并行而不是串行进行。标准计算机处理器(CPU)被优化用于快速串行计算(其中一步的输入可能是前一步的输出),但它们不能并行完成大量计算。这种优化用于“横向”扩展并行计算而不是加速串行计算的方式对计算机图形处理来说非常合适,同时也非常适合用来训练人工智能。

在90年代末视频游戏兴起之前,GPU主要服务于小众市场,它们是如何主导AI硬件市场的,又是如何取代硅谷原有的巨头如Intel的?2012年,AlexNet 使用Nvidia GPU加速模型训练,在ImageNet机器学习竞赛中获胜。他们证明,GPU的并行计算能力非常适合训练机器学习模型,正如计算机图形学一样,机器学习模型训练也依赖于高度并行的矩阵计算。如今的大型语言模型(LLM)在此基础上发展,可以进行数万亿次的算术计算和数十亿的模型参数调整。自AlexNet以来,并行计算需求激增,Nvidia凭借巨额前期投资和巧妙的锁定策略,已确立其作为机器学习和AI模型训练主要芯片的地位。

鉴于GPU设计的巨大市场机遇,提出这样的问题是有道理的。英伟达在ChatGPT和AlexNet出现之前对机器学习和人工智能市场的早期投资至关重要。英伟达在明确的商业用途出现之前,就在科学研究计算市场领域投入了大量研发资金,这些领域后来演变为机器学习和人工智能。由于这些早期投资,当人工智能市场兴起时,英伟达已经建立了最好的供应商和客户关系、工程人才和技术,并且已经拥有最先进的GPU技术。

或许英伟达最早的也是最重大的一笔投资,也是现在对其竞争对手最深的护城河,是其CUDA编程平台。CUDA是一个底层软件工具,让工程师可以与英伟达的芯片进行交互,并编写并行算法。许多模型,比如LlaMa,利用了基于这些基础CUDA工具的高级Python库。这些低级工具让模型设计者可以专注于更高层次的设计选择,而不必担心在GPU处理器核心层面计算的复杂性。CUDA让英伟达构建了一个软件解决方案,战略性地补充了他们的硬件GPU产品,解决了AI构建者面临的许多软件难题。

CUDA不仅简化了在Nvidia芯片上构建并行AI和机器学习模型的流程,还把开发者锁定在Nvidia系统上,这使得任何希望转投Nvidia竞争对手的公司面临显著的退出壁垒。CUDA编写的程序无法在竞争对手的芯片上运行,这意味着要脱离Nvidia芯片,公司不仅需要重建CUDA平台的功能,还需重建技术栈中依赖CUDA输出的部分。在过去十年里,基于CUDA构建的庞大AI软件栈,对于任何希望迁移到竞争对手芯片的人来说,转换成本是相当大的。

微芯片代工厂

图片来自 Louis Reed on Unsplash

像 Nvidia 和 AMD 这样的公司设计芯片,但它们并不制造芯片。相反,他们依靠被称为晶圆厂的半导体制造专家来生产芯片。现代半导体制造是迄今为止最复杂的工程过程之一,这些晶圆厂与大多数人传统工厂的印象相去甚远。例如,最新芯片上的晶体管只有 12 个硅原子的长度,比可见光的波长还要短。现代微芯片将数万亿个这样的晶体管紧密地压实在一小块硅片上,并蚀刻成原子级的集成电路图案。

制造半导体的关键在于一个称为光刻的过程。光刻涉及在硅晶圆上蚀刻复杂的图案,硅晶圆是由硅元素结晶形成的,作为微芯片的基础。该过程包括在晶圆上涂上一种光敏化学物质(光阻),并通过掩模(含有所需电路图案)将其暴露于紫外线中。然后显影曝光的光阻区域,留下可以在晶圆上蚀刻的图案。这一过程中最关键的机器是由荷兰公司ASML开发的,该公司生产极紫外(EUV)光刻系统,并在其所在的半导体价值链部分占据类似优势地位。

就像英伟达主导了GPU设计市场一样,其主要合作伙伴台积电在高端AI芯片制造领域也占有相当大的份额。为了更好地理解台积电在半导体制造领域的地位,了解更广泛的代工行业概况是有帮助的。

半导体厂商主要分为两种晶圆厂模式:纯代工厂和集成制造厂(IDM)。纯代工厂,如台积电和格罗方德,专注于为其他公司制造微芯片而不设计自己的芯片(与无厂设计公司如英伟达和AMD形成互补,这些公司设计但不制造自己的芯片)。这些代工厂专门从事制造服务业务,使无厂设计公司能够设计微芯片而不需巨额投资在制造设施上。相比之下,集成制造厂如英特尔和三星则设计、制造并销售自己的芯片。集成模式提供了对整个生产过程的更大控制权,但需要在设计和制造能力上进行大量投资。由于其为无厂设计公司提供的灵活性和成本效益,纯代工模式在最近几十年里越来越受青睐,而集成模式对于那些拥有保持设计和制造的专业能力资源的公司来说仍然有利。

在不考虑台湾及其随之而来的地缘政治风险的情况下,讨论半导体制造业是不可能的。在二十世纪后期,台湾从一个低利润空间、低技能的制造业岛屿转型为半导体制造强国,这主要得益于政府的战略投资以及对高科技产业的重视和扶持。台积电的成立和成长是这一转型的关键,使台湾处于全球科技供应链的核心位置,并促进了众多小型公司的成长,以支持半导体制造。然而,这种主导地位也使台湾成为当前地缘政治斗争中的关键焦点,中国视该岛为一个分离省份,并寻求更大的控制。任何紧张局势的升级都可能扰乱全球半导体的供应,对全球经济,特别是人工智能领域,产生深远的影响。

硅矿和金属矿

图片来自 Getty Images on Unsplash

在最基本的层面上,所有制造的物品都是由从地球提取的原材料制成的。用于训练AI模型的微芯片主要由硅和金属构成。这些金属以及在光刻过程中使用的化学物质是晶圆厂制造半导体的主要原料。虽然美国及其盟友已经控制了价值链的许多环节,但其AI竞争对手中国则在原材料金属和其他投入方面更具优势。

任何微芯片的主要成分是硅(这也是硅谷这个名字的由来)。硅是地壳中最常见的矿物质之一,通常以二氧化硅的形式被开采(即石英或硅砂)。生产硅片的过程包括开采石英岩,将其粉碎后,提取并提纯硅元素。接下来,像Sumco和Shin-Etsu Chemical这样的公司通过一种称为Czochralski生长的过程将纯硅转化为晶圆,在这个过程中,种子晶体被浸入高纯度的熔融硅中,然后慢慢向上拉出并旋转。这个过程会形成一个大型的单晶硅锭,将其切片成薄片,作为半导体制造的基础。

除了硅之外,计算机芯片还需要少量的其他金属,特别是稀土金属。半导体制造的一个关键步骤是掺杂,即在制造半导体时,向硅中加入微量杂质以调节其导电性的过程。掺杂通常使用例如锗、砷化镓和铜这样的元素。中国主导了全球稀土金属生产,占全球稀土开采量的超过60%和加工量的85%以上。其他重要的稀土金属生产国包括澳大利亚、美国、缅甸和刚果(金)。美国对从中国进口的稀土金属高度依赖,带来了重大的地缘政治风险,因为这类供应中断可能会严重阻碍半导体行业和其他高科技行业的正常运行。这种依赖促使美国和其他国家正在努力实现供应链多元化,并在国内建立稀土生产能力,然而,由于环境问题和稀土加工的复杂性,进展相对缓慢。

结语

支撑AI发展的物理和数字技术基础设施建立在几十年的学术和工业的发展之上。价值链涵盖了终端应用构建者、AI模型构建者、云服务提供商、芯片设计和制造企业、原材料供应商等众多关键参与者。尽管很多关注集中在像OpenAI、Nvidia和TSMC这样的大玩家上,但在价值链的每个环节上都有重大的机遇和瓶颈。成千上万的新公司将诞生来解决这些问题。虽然像Nvidia和OpenAI这样的公司可能是它们时代的Intel和Google,但个人计算和互联网的兴起催生了成千上万的独角兽公司来填补市场空缺并解决新经济带来的问题。转向AI创造的机会可能需要几十年才能被充分理解并实现,就像个人计算在70和80年代,以及互联网在90和00年代一样。

尽管企业家精神和灵巧的工程技术能够在人工智能市场解决许多问题,然而,一些问题涉及更强大的力量。没有一个挑战比与中国不断升级的地缘政治紧张关系更严峻,中国拥有(或声称拥有)大部分原材料和制造市场。这与美国及其盟友的情况形成对比,后者控制着供应链的大部分下游环节,包括芯片设计和模型训练。争夺人工智能主导权的斗争尤其关键,因为人工智能开启的机会不仅仅是经济上的,也是军事上的。现代国防科技初创企业如PalantirAnduril已经展示了人工智能能力如何扩大战场视野和加速决策循环,从而获得潜在的决定性优势。半自主武器系统和网络战代理人利用人工智能能力可能在未来几十年的冲突中发挥决定性作用。鉴于人工智能对全球秩序的巨大破坏潜力以及美中之间微妙的力量平衡,两国必须寻求保持一种旨在共同发展人工智能技术以促进全球繁荣的合作关系。只有解决供应链上的各种问题,从科学到工业再到地缘政治层面,人工智能将人类能力大幅提升的承诺才能实现。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消