首页手记生成式AI视频：一种新媒体的崛起

生成式AI视频：一种新媒体的崛起

标签：

机器学习人工智能计算机视觉

不只是更省钱拍电影的方法

我所有的文章首先发布在我的Substack《调解人》上。这篇文章一周前在我的_《调解人》上发布。

免费注册 点击这里 免费注册，即可同步通过邮箱收到《调解人》邮件通讯！

Midjourney提示：‘一个代表无限循环电影的抽象图像，没有开头也没有结尾。’

二十年前，我写了一份研究报告，论证互联网视频不会对传统电视构成威胁。这份报告不仅错误，还缺乏想象力。它将互联网简单地看作是传输有线电视节目的一种新方式。我没有预料到互联网会催生新的视频形式，特别是社交视频和直播，这些现在在美国的视频观看时间中占约25%。

今天的好莱坞，人们讨论GenAI时，主要关注如何利用它来更高效地制作电影和电视节目。

哪些工作最容易被机器取代？
技术和法律上何时可以使用它来替代主要拍摄，而不是仅仅用于前期和后期制作？
它究竟能降低多少成本？
消费者会接受它吗？如果会，他们会更倾向于哪种类型的影视作品？

这些都是重要的且合理的问题，但它们都缺乏同样的想象力。它们假设生成AI视频的主要用途是用新方法制作旧内容。随着时间的推移，所有新的媒体都会超越对旧形式的简单模仿。创作者逐渐理解新媒介的独特属性，并利用它来创造全新的东西。同样的情况也将发生在生成AI视频上。

准确预测技术如何演变以及消费者会喜欢什么是很困难的。这需要时间来了解。但是，通过研究AI视频模型的独特特性，我们可以做出一些合理的猜测。

长了没看:

将一种新的媒介仅仅视为模仿旧形式的一种方式——这也被称为“仿古设计”——是媒体中常见的一个误区。
目前好莱坞大部分关于通用人工智能（GenAI）的讨论也仅将其视为一种以更低的成本制作电视节目或电影的新途径。
但是，GenAI也会催生新的形式。尽管无法精确预测这些新形式，但通过探索GenAI视频的独特性质，我们可以做出合理的推测。
低成本: GenAI将比传统制作便宜得多，这将使更多的风险和实验成为可能；更多样化的表现；大规模的A/B测试和比较；以及粉丝自制内容。
动态: 它可以动态渲染，最终实现实时渲染。这将开启情景化、个性化的互动故事，甚至可能是涌现的或无限的故事。
3D: 它不再受限于每个静帧的固定视角，这意味着可以从无限多的视角体验视频，包括在动作本身内部。每个观众都可以根据自己的视角来观看。
无拘无束: 它也不再受限于物理法则和现实，这意味着它可以实现不可能的镜头，替代现实，超越物理法则的环境以及其他难以想象的东西。
媒体中最稀缺的资源是消费者的时间和注意力。这些新形式不可避免地争夺这两者。对于那些了解这一点的人来说，这是个机会，而对于那些不了解的人来说，则是一个风险。

缺乏想象力

2005年，我在美银证券负责覆盖美国的有线、卫星和娱乐股票。一些投资者开始担心互联网交付的电视，即当时的IPTV或称“互联网绕过”，会对我所覆盖的有线和卫星电视提供商，如康卡斯特和DirecTV，构成新的竞争威胁。（当时还没有流行的术语"OTT"和“流媒体视频”。）

我写了一份报告，认为IPTV（互联网协议电视）不会威胁电视行业。看看图1，你会发现其中的逻辑漏洞。

图1. 错得一塌糊涂

来源：美国银行证券.

除了错误之外，这种分析还缺乏想象力。我将“互联网视频”视为仅是一种传输有线电视节目包的新方式。我认为互联网对视频业务的影响非常有限，这样的观点过于狭隘。我没有预料到一些小的事情，比如：

供应链的压缩，例如像 Netflix 和 Hulu 这样的分销商向上游整合到独家内容创作，以及像迪士尼、时代华纳、派拉蒙等公司向下游整合到直接面向消费者的分发。
“电视网”的消亡或减少以及娱乐流媒体平台的崛起，比如 Netflix、Prime Video、孔雀和 Max。
消费者电视观看行为的变化，例如大约 60-70% 的电视观看转向了点播和追剧，以及放弃广告支持的观看（尽管现在这种情况正在回转）。
数字用户体验作为竞争基础的出现，包括流媒体质量、可靠性以及搜索、发现和推荐等功能。
内容的全球化，例如韩剧、动漫和其他外语内容在美国的流行。
视频内容创作工具的民主化，包括硬件（如 iPhone）和软件（如剪映），随之出现了数以亿计的业余和半专业视频创作者。
相关的社交（或用户生成）视频的兴起，作为新行业和新形式。正如我最近在《社交视频正在吞噬世界》中讨论的那样，我估计现在视频观看中有约 25% 是社交视频。它催生了自己的亚文化，无数的子类别：舞蹈视频、食谱、反应视频和“混剪”，ASMR，视频播客，生活小窍门，恶作剧，地理猜测，视频游戏，电竞，单口喜剧片段，时尚（“造型检查”），锻炼，很多关于狗狗的东西等等。它还创造了与好莱坞最大的明星一样大或者更大的名人，如 Mr. Beast、Charli D’Amelio、Khaby Lame、Addison Rae 等等。
直播流媒体的出现，例如 Twitch 和斗鱼，这是一种新形式，拥有自己的独特亚文化，包括表情符号、虚拟礼物、聊天、流媒体狙击等。

换句话说，我是以一种 skeuomorphic 的方式在考虑网路影片。

媒体中的拟态设计

克里斯·迪克森，a16z的普通合伙人，经常讨论skeuomorphism 概念在技术领域中的应用。他认为新技术的初期应用往往是简单模仿前一代技术的应用方式。

skeuomorphism（即保留旧形式特征的现象）在媒体中非常普遍。最早的广播节目是歌舞表演的现场转播；最早的电视节目是舞台剧的电视转播；最早的视频游戏是模拟游戏，类似体育或棋盘游戏；最初的网页只是静态的文本内容，就像报纸或杂志一样。如前所述，我将互联网视作新的电视网络传输方式的想法也是 skeuomorphic。

1964年，马歇尔·麦克卢汉在《理解媒介：人的延伸》一书中写道：“媒介即信息。”他的意思是，每一种媒介都有其独特的属性，这些属性不仅影响内容，还影响其感知方式，并且这种影响是特定于该媒介的。然而，对于新的媒介来说，创作者们需要一段时间才能搞清楚这一点。最终，他们会超越模仿旧形式的阶段，利用这些独特属性创造全新的形式。

在电视和电影中，这涉及跟踪镜头、推拉镜头、手持摄影、特写镜头、航拍以及其他镜头技巧、剪辑和特效。
在在线出版领域，这意味着使用超链接和多媒体、实时更新、无限滚动和交互式数据可视化。
在视频游戏中，这意味着各种新的游戏机制、开放世界、虚拟经济、大型多人在线游戏等等。

大多数关于生成式AI视频的讨论都带有 skeuomorphic风格

正如预料的那样，迄今为止大多数关于“AI视频”的讨论都表现出 skeuomorphic (skeuomorphic) 思维方式——即讨论的是GenAI将如何以及在多大程度上用于更高效地制作电影和电视节目。

我也确实有这个罪名。在过去几年里，我一直写关于好莱坞将（或不会）如何在其生产工作流程中使用生成型人工智能（GenAI）以降低电视和电影制作的成本的文章（例如《好莱坞中的AI用例》），以及为什么生成型人工智能将降低个人创作者和小团队进入高质量内容创作领域的门槛，从而降低他们的进入门槛，并对好莱坞构成颠覆性的威胁（例如《好莱坞的“颠覆”将如何展开？》）。在好莱坞，人们正在讨论生成型人工智能将如何（或不会）影响工作；何时可以在“最终像素”上从技术和法律上来说可行；它究竟能在多大程度上降低成本；哪些人才会参与；以及观众是否会真正接受或拥抱这种技术。

这些都是重要且合理的议题（我希望是这样，因为我写到了它们），但它们却有着同样的想象力不足的问题。它们假设生成式AI的主要应用将是用新的方式制造同样的旧东西。然而，就像所有其他新媒体一样，生成式AI也将使创作者能够创作出新的东西和新的方式。

大多数关于生成式AI的视频讨论都假设它只是以新方式制作旧内容。那么，它能做哪些全新的事情吗？

GenAI视频的“新拟态”应用

skeuomorphic这个词并没有一个公认的反义词，最近我和Intelligent Jello的作者Mike Gioia讨论了skeuomorphism，他提出了一个词叫做“neumorphic”。我觉得不错。

那么，生成式AI视频的“新拟态风格”应用有哪些？

有几个需要注意的地方关于回答这个问题。首先，显然无法给出一个确切的答案。回顾互联网如何改变了视频行业——包括社交视频和直播的崛起——显然，人们无法预测新技术将带来哪些新的应用场景或方式，或者消费者会接受哪些应用。（比如，我在2005年撰写IPTV报告的时候，还没有iPhone，因此可以说真正的移动互联网还不存在；Netflix当时还没有推出流媒体服务；而YouTube才刚刚成立三个月。Twitch则是在2011年才推出。）我特意用了“出现”这个词。这些是复杂的系统，包含许多组成部分，和所有复杂系统一样，它们会产生一些意想不到的结果。

其次，预测技术的未来应用是一条难以捉摸的斜坡。很容易进入科幻领域，例如喷气背包、神经植入物和因尚未犯下的罪行而被捕。这些预测可能相差甚远，几乎与现实无关。它们也常常表现出一种幼稚的技术决定论，即如果某事技术上可行，它就会不可避免地发生。仅仅因为某事可能，消费者未必想要它。

对未来的预测常常带有幼稚的技术决定论色彩，认为只要技术可行，就一定会实现。但实际上，有时候消费者可能并不需要这样的东西。

所以在深入之前，我想先做一些假设：

人们总是喜欢故事。 人类在还没有书写语言的时候就已经开始互相讲故事了。我们总是需要故事中的关键元素，比如角色、冲突、紧张和解决方案。
视频的主要用途将继续是讲故事，但我们不应忽视“怪异的元素”。 我在下面讨论的一些关于GenAI视频的潜在应用可能看起来有些离奇——超现实、非线性、抽象等等——这自然会引发一个问题：是否有人在乎。我认为视频的主要用途将继续是讲故事和传达信息。但请记住，很多流行的视频类型实际上并不讲述故事，比如音乐视频、环境放松视频、ASMR、Vlog、延时视频和时尚视频。起初看似“太怪异”的内容可能会以意想不到的方式流行起来。
好故事需要人类参与其中。 好故事能够激发情感共鸣。尽管我对此的看法比较弱，我认为，由于计算机没有情感，我们始终需要人类来判断一个故事是否优秀。
故事具有重要的社会成分。 故事的一个关键“任务”是创造共同体验。我不认为人们会想要退回到孤独的个人影院中。
人们在消费故事时有不同的需求状态。 有时他们希望低摩擦、低努力；有时他们希望积极参与其中。

考虑到这些保留意见和假设，让我们探索生成式AI的独特特点，并推测可能出现的“新朦胧风格”应用。

便宜:

最显而易见的区别在于生成式AI视频与传统制作技术的成本差异。正如我在《好莱坞中的AI用例》中所述，一部大片的幕后制作和后期制作成本大约是每分钟1到2百万美元（即除了导演、剧集主管和顶级演员等一线人才外的所有成本）。随着GenAI技术的不断进步，这些成本最终可能与计算成本相接近，也就是每分钟的成本支出——低出四到五个数量级。这将使内容量激增，内容质量不再受限于资源的获取，而是仅受限于创作者的技艺、创意和投入程度。

随着时间的推移，非直接计入的生产成本可能会与计算成本趋于一致，比现在的水平低四到五个数量级之低。

当然，这一直是关于生成式AI的影响的主要讨论点，即它降低成本和减少劳动需求的能力。这也是我为何认为生成式AI可能对好莱坞造成巨大冲击的主要论点。但这些大幅降低的成本还有其他方面的影响。

更多的实验和冒险。 由于制作高质量的好莱坞内容成本极高并且伴随的风险也很大，开发执行官往往倾向于规避风险。他们倾向于选择以前已经成功的格式、类型和故事架构。（这种倾向在电影《玩家》中被戏仿，电影中编剧们提出诸如“《走出非洲》遇上《风月俏佳人》”和“《毕业生》遇上《惊魂记》”等创意。）相比之下，生成式AI将使创作者们有更大的自由度去尝试各种格式、结构和长度，这超出了我们的想象。
更广泛的代表性。 好莱坞是全球电影制作的主要力量，很大程度上是因为美国市场的规模支持其高额预算，这在其他地方是不可能实现的。而在好莱坞内部，以白人男性为主的局面广受关注，这也是#OscarsSoWhite社交媒体运动的体现。生成式AI的出现将使电影的制作在更多地方、为更多人所接触。
大规模的A/B测试。 几十年前，我参加了一场《老友记》的现场录制，惊讶地得知录制一集22分钟的节目可能需要六到七个小时。其中的原因之一是《老友记》会进行A/B测试笑话。（演员们会多次重复同样的情节，但每次则用不同的结尾。）大规模影片中也常有测试，通过放映或让观众阅读剧本来实现。有了生成式AI，就可以在更大范围内进行这种测试，测试更多样化的故事线，基本上是通过大众来共同完善故事内容。（这并不是说创作者们想要这样做，而是他们可以这样做。）
粉丝创作。 我曾广泛讨论过粉丝创作（例如，参见IP作为平台）。很明显，粉丝们有强烈的创作欲望，使用他们喜爱的IP。在各种媒体中，粉丝创作的流行程度与媒介的可接近性直接相关：这是因为大多数人都能写作，文学同人小说非常流行；虽然需要一些音乐才能，但仍然有大量的歌曲翻唱；游戏修改则相对较少，因为它通常需要一些技术流利度和编码能力；而视频粉丝创作则相对少见，因为它如此困难、耗时且昂贵。随着视频创作的成本大幅下降，它将变得更加可接近。正如我之前所写，我认为，进步的IP持有者不仅会鼓励这种创作，还会支持这种创作。长期来看，可能会有更多的时间花在视频创作上，而不是花在视频消费上。创作与消费之间的界限可能会越来越模糊不清。

更易得的视频粉丝创作可能意味着：花在看视频上的时间会越来越多地与花在制作视频上的时间争夺，两者之间的界限也可能越来越模糊。

动态的

GenAI视频和传统制作之间另一个根本区别在于其动态变化的能力。传统上，当一集电视剧或电影完成之后，它是“定版”的，不会被修改。GenAI使得视频可以不断调整。随着模型的进步和计算能力的提升，最终将可以实现视频的实时渲染。

视频是“可变的”，而静态内容则不可变，今天要理解这种对比的意义很难。不过这里有一些不互相排斥的建议。

根据上下文调整相关内容。 视频可以动态调整以符合上下文的相关性。这不仅是为了适应不同文化、语言或地理区域的需求，还包括融入最新的事件。

我不太相信人们会每时每刻都想要定制的个性化内容。但某些形式的个性化可能有时会吸引人。

个性化内容。例如： 最强形式的上下文内容是个性化内容。许多人猜测有一天观众将能够使用生成式AI来制作自己的电影。几年前，Sequoia发表了一篇文章，指出到2030年，“视频游戏和电影将变成个性化的梦境”。我对此表示怀疑，原因是正如我上面所写：媒体的一个重要“任务”是创造共同的经历。不过，一些形式的个性化可能会吸引部分观众，至少在某些时候。也许一个五岁的孩子想看蓝莓兔（Bluey）打棒球？也许有些人想以不同的视觉风格观看他们最喜欢的系列或电影？也许有些观众希望《权力的游戏》有另一个结局？也许有些家长想和孩子一起观看适合他们孩子的80年代的喜剧片？也许有些人想要根据他们可用的时间来剪辑电影或电视节目的版本？这方面的早期尝试之一是Fable Studio推出的一款流媒体服务Showrunner。目前内容还有很多不足之处，但目标是让观众能够定制节目。
互动故事。例如： 一种需要观众主动参与的个性化形式是互动性。类似于“你来选择自己的冒险”书籍或Netflix的《黑镜：班德斯奈奇》实验，故事可以根据观众的输入来推进。在《班德斯奈奇》中，由于需要拍摄所有版本，因此可能的组合数量有限。（创作者曾表示，如果知道这有多难，他们可能不会这样做。）理论上，生成式AI可以没有限制。（在此类尝试中，有一个初创公司叫Dreamflare，它让观众观看结局由他们的选择和AI决定的故事。）这样一来，节目或电影与游戏之间的界限可能会变得模糊。
无限和涌现的故事。例如： 类似于开放世界游戏的概念，可能会有开放世界叙述内容。想象一下，有明确定义的角色和神话的故事世界，故事将以概率性且不可预测的方式演变，甚至可能永远不会结束。

3D技术

传统的实拍视频是每秒24帧。每一帧的视角由摄影师确定并固定在空间内。

GenAI视频并不限于固定的视角。理论上，它可以在场景的3D空间中采用任何视角。如今，最先进的模型已经对3D空间、时间和运动有了某种感知。随着它们的发展，这种理解将变得更加精细和复杂。例如，Runway正在进行一项研究项目，旨在创建“通用世界模型”来更好地理解和模拟现实世界的物理现象。上个月，人工智能界的“教母”李飞飞宣布了她的新创业公司World Labs，旨在构建具有更高级的空间智能和对世界运作方式的理解的模型。

有了GenAI视频技术，每个人都能成为视频创作者了。

结合上述提到的实时渲染能力，这意味着最终观众可以像置身于场景中一样，从任何角度观看视频。每个人都能成为自己的摄像师。这也意味着观众可以从不同的视角观看同一个叙事，有点像《罗生门》中无限的视角变化。如果空间计算（比如AR、VR和MR）兴起，这种功能将更加重要和相关。

没有限制的

如今，电影和电视不再受物理定律的束缚。缩小模型、绿幕、物理特效及VFX技术让不可能的事物得以呈现。然而，这些操作既耗时又昂贵，而且受到人类想象力的限制。因为我们生活在物理定律严苛的世界里——甚至在我们理解语言之前，我们已经本能地掌握了这些法则——很难想象那些与现实完全不同的环境。

电影不受物理定律的限制，但它们也受限于我们对物理定律的理解和内化。

GenAI 并不受这些限制。改变物理并不比其他任何提示更昂贵或耗时。GenAI 可以创造具有全新物理法则的替代现实。它可以表示高维空间或非欧几里得几何。我们能否理解这一点是另一回事。它可以创造出违背物理定律的环境，这些环境是自动生成的，而不是显式设计的。结合上述互动性，它可以创造“分形叙事”——在不同层次上展开的故事，让观众可以从任何叙事元素中获得不同的体验。这些都是我们现在难以想象的事情。

以下是一个早期且直接的例子，请看下面的“最难的部分”视频。艺术家保罗·特里洛使用Sora为一对情侣的生活历程实现了“无限缩放”的效果。正如他所说，这种效果“无法通过摄像机拍摄，也无法通过3D动画制作，只能通过这种特定的技术才能实现。”

skeuomorphic思维既受限又自我局限的

其中一些内容听起来可能有些超前。正如我在文中提到，我们现在无法预测GenAI技术会如何发展，哪些相关技术会出现，哪些会吸引消费者的注意力，哪些不会。弄清这一切需要时间，而且它几乎肯定将以意想不到的方式发展。但提前思考这些问题是有价值的。

二十年前，我没有意识到互联网不仅仅是一个新的分发媒介，还会创造新的形式。即使是在十年前，也没有人会猜到，北卡罗来纳州格林维尔的一个孩子从卧室里发布的视频最终会成为世界上最著名的名人之一，或者 Mr. Beast 的视频发布后几天内能吸引一亿次观看。没有人会猜到人们会观看别人玩 Minecraft 超过一万亿次的观看次数。也没有人会猜到最流行的 ASMR YouTuber 会有超过三千多万订阅者。但现在这一切都发生了。

在媒体中，消费者的时间和注意力是最稀缺的资源。GenAI视频所带来的新形式必然会争夺这两方面的资源。

主要电影工作室不太可能很快拥抱通用人工智能（GenAI），正如我在《洛杉矶的恐惧、厌恶、炒作与现实》中讨论的那样。这些原因是可以理解的。如果我依然在大型媒体公司工作，我也会担心人才反弹和未解决的法律问题。即便如此，重要的是要理解，GenAI不仅仅是为了降低成本，而是一种新的媒介，将会催生新的形式和内容。在媒体领域，最稀缺的资源是消费者的时间和注意力。这些新形式将不可避免地与这些资源竞争。这对于理解它的人来说是机会，但对于不了解它的人来说则是风险。

我唯一记得的情节就是这样，钱德勒试图通过告诉詹妮斯他要搬到也门来与她分手。

跟每一个看过这个的人一样。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

拉丁的传说

手记
篇

粉丝

127

获赞与收藏

793

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32890 371

网络编程入门教程

20个小节 13642 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

生成式AI视频：一种新媒体的崛起

阅读免费教程