图片由 Flux 生成
今年对于生成音乐和音频AI来说,可谓是风起云涌。生成音乐的概念已经存在了几十年之久(参见维基百科的生成音乐),但仅在过去的一年里,我们才看到它从基础的MIDI和样本制作发展到能够生成完整连贯的歌曲,甚至带有歌词。就在一年多以前,我还使用Dance Diffusion(来自Harmonai)生成独特而混乱的样本,用在了一首我正在制作的歌《Viridian》中。当时能够从零开始生成新的声音,的确令人兴奋。我对这项技术很感兴趣,因此组织了一个开源项目tiny-audio-diffusion,旨在帮助像我这样的硬件受限者入门训练生成音频模型。尽管当时的模型只能生成1.5秒的单次打击乐样本,感觉已经很前沿了,然而,仅仅一年多之后,商业化的生成音乐模型已经能够根据文本描述生成高质量的完整歌曲,甚至包含歌词。
然而,任何新的变革性技术都会带来一些成长的阵痛。这些新能力让许多音乐家、制作人、版权持有者和创作者对此感到担忧,他们认为生成音乐的AI可能对他们艺术和生计构成威胁。这已经导致了支持者和反对者之间的分歧,让许多音乐家和版权持有者对于任何AI模型在训练时使用他们的数据都持谨慎态度。然而,实际上这个问题有很多灰色区域,AI的应用场景可以从剥削性到中立,再到显著地造福创作者和版权持有者。
要彻底理解生成式人工智能的争议并探索可能的前进之路,重要的是要理解双方的观点以及这些分歧出现的背景。建立共同的根基对于促进更加细致和有效的关于人工智能及其在音乐和艺术中角色的对话至关重要。
“生成型”和“非生成型”模型的区别及其重要性所在:#
就像我之前简要提到的,近来生成音乐技术的快速发展已经使得公众对AI在音频领域的应用产生了复杂的看法。此外,许多公司开始随意使用人工智能(AI)、机器学习(ML)、生成AI(生成AI)等标签,试图利用这些流行术语的影响力来获取更多利益。不幸的是,这只会导致更多的混淆,尽管每个术语都有特定的定义。例如,人工智能(AI)是一个广泛的类别,涵盖了旨在模拟人类智能的技术,而机器学习(ML)则是AI的一个子集,使系统能够从数据中学习并改进,而无需明确编程。更重要的是,围绕音乐领域中AI的许多争议都源于对“生成”和“非生成”AI之间差异的混淆。
生成式AI可以被认为是一种能够创造新事物的机器学习系统,即生成新的内容或数据。音频领域的有些生成式AI的例子包括:
- 歌曲或音频生成 — 例如,根据文本提示生成一首歌曲
- 符号旋律制作 — 例如,创建的旋律可以是MIDI格式、标准乐谱或指法谱
- 声音生成或克隆 — 例如,合成新的声音或模仿某人的声音
- 歌曲补全 — 例如,完成一首未写完的歌曲或填补音频记录中的空白
- 音乐到音乐生成及风格转换创作 — 例如,将摇滚歌曲转换成爵士编曲
- 音频增强 — 例如,提高低分辨率或压缩音频文件的质量
- 文本到语音 — 例如,将文字转换成自然发音的语音
非生成式的AI可以被看作是一种能够分析、分类或增强音频内容而不会生成新的内容的机器学习系统。非生成式音频的一些例子例如:
- 音乐推荐 — 例如,Spotify 根据听歌历史推荐歌曲
- 音频源分离 — 例如,从音轨中分离出人声或乐器
- 音乐转录 — 例如,将音乐转录为MIDI或乐谱
- 音乐分类 — 例如,分类音乐类型或不同类型的音乐
- 自动混音和母带制作 — 例如,调整电平和效果以优化音质
- 语音转文字(转录) — 例如,将语音转换为文本
由于这两者之间有明确的区别,当在一般和法律环境中讨论音乐和人工智能时,应将它们视为独立的实体。许多非生成式机器学习模型已经存在了多年,还有一些生成式的。历史上并未特别关注这些模型使用的合法性与道德性。大多数艺术家认为这些用例总体上对他们有利,并不会对他们的工作构成威胁。只有最近生成式音乐的发展才引发了全球范围内对音频领域人工智能数据权利的重新思考。
虽然理解生成式与非生成式之间的区别很重要,但单凭这一点还不足以提供足够的深度,目前争议正围绕这一点展开。这仍然引发了这些模型是否真正创造出了新的、原创的东西的疑问。为了做出明智的判断,理解生成式音乐模型的基本工作原理是至关重要的。
音频生成模型是怎么工作的许多先进的音乐生成模型利用了称为“扩散”的过程,这一过程因图像生成模型“Stable Diffusion”在2022年夏天出名而为人所知。虽然并非所有的生成模型都采用这种方法,但其核心概念是可以被转移的。本文不会详细介绍扩散模型的技术细节,但如果您想了解更多技术细节,可以参阅这篇文章。
由 Stable Diffusion 生成的图片 —— Stable Diffusion 首次发布
在图像和音频生成的背景下,扩散模型是指将噪声精炼成可识别的东西。这可以想象为将电视雪花噪声逐渐调整成一幅图像,更准确地表达为将随机噪声逐步调整成一幅图像。
基于扩散过程的图像生成(使用稳定扩散模型生成的图像)
同样的概念也可以应用在音频上,但模型不是将噪声解析成图像,而是将其精炼成声音波形(在这种情况下是音乐)。为了教会模型这种能力,它会被展示数以万计小时的音乐,对每个样本重复将噪声转换为音乐的过程。随着时间的推移,模型变得越来越擅长将噪声转化为音乐。
Diffusion Process for Audio Generation
这个过程的关键在于,生成式音乐模型不会学习精确地重构它所训练的音乐。这是因为音乐训练数据局限于所有可能声音的特定分布。模型学习在这一音乐_分布_范围内生成,而不是学习生成整个_分布_范围内的音乐,而是学习生成整个_分布_内的音乐,而非某个特定训练样本(如某首特定的歌曲)。因此,这些新生成的音乐仍然会受限于它所训练的_分布_范围内。
想象一个小孩正在学习如何用乐高积木搭建东西。如果这个孩子看到许多乐高飞船套装的说明书,她将能够搭建出类似她学过的飞船套装的新作品。然而,如果她从未见过埃菲尔铁塔套件的说明书,她就不知道如何搭建类似埃菲尔铁塔的东西。因此,虽然她能搭建新的作品,但这些作品都类似飞船。同理,一个只训练过音乐的模型,不知道怎么发出狗叫声。
用Flux生成的图片
这个想法是,如果数据的规模足够大且多样化,模型将学会跨越所有音乐类型的泛化能力,并能够生成“新的”音乐作品,在这样的分布范围内。虽然这些解释是过于简化的,但它们展示了这些模型的创作能力有多么广泛,这对如何使用它们的输出具有重要影响。然而,关于什么可以被视为“原创”作品的讨论仍然存在激烈的争论。
AI训练数据之争这个问题的核心在于围绕权利持有者的数据和模型训练,我们应该考虑哪些因素。最近我在旧金山参加了一年一度的 ISMIR(国际音乐信息检索协会)会议,亲身体会到了技术社区对这个问题的看法。作为一位音乐人和制作人,我的经验告诉我,我看到了各方不同的看法。
图片由 Flux 制作
基本上,参与的各方主要分为两大派系。
第一个阵营的观点是 “生成模型正在创造独特的内容,因此应该允许使用受版权保护的材料进行训练。” 这些人大多在AI生成公司工作。他们的理由是:
- 人类一生中会听很多不同类型的音乐并从中学习,这些都会影响他们的音乐创作。同样的,模型也会受到训练所用音乐的影响,但不会复制这些音乐。
- 音乐创作一直以来都包含了会模糊原创界限的做法,例如混音、采样和重新诠释,这些做法在艺术文化中广为接受。生成式模型被视为这些做法的自然延伸。
- 依靠美国的_合理使用_原则,该原则通常比许多其他国家的版权法更宽松,他们认为生成式模型的输出是具有转化性的,因此不会对训练过程中用到的作品造成损害。
- 生成式AI使得任何人都可以创作音乐,无论技能水平如何,从而拓宽了创作的可能性,使音乐制作更加民主化,并降低了入门门槛。
- 这些模型让人类和AI能够共同创作原本不可能实现的作品,促进了新的艺术合作形式。
- 通过使用广泛的音乐数据集进行训练,AI模型能够捕捉各种音乐传统和风格的多样性,促进创新,而不是将其限制在狭隘的预定义风格中。
第二个阵营的观点是 “生成模型的输出可能会与训练时使用的作品产生竞争,因此,在训练模型时使用任何艺术家的作品之前,需要得到他们的同意。” 这一阵营主要包括技术社区的其他成员以及大多数音乐艺术家和制作人。他们的主要论点包括:
- 使用受版权保护的材料而不经过同意是一种剥削行为,因为它利用了艺术家的作品来创造可能的竞争性作品,而不给予补偿或认可。
- 尽管训练过程可能部分模仿人类如何受到广泛音乐作品的启发,但主要的区别在于规模。生成式AI系统每分钟可以生成数千首歌曲,而人类音乐家通常每年只发布几首歌曲或专辑。
- 生成模型可以复制风格、旋律甚至声音,模糊了灵感与抄袭之间的界限,这可能会损害原作品的价值。
- 生成模型的输出可能会在市场上充斥着类似的声音内容,减少音乐表达的多样性,使得原创作品更难突出。
- 艺术家和制作人呼吁增加透明度,要求AI公司披露具体的数据集,并在包含受版权保护的作品之前寻求许可。
- 知识产权保护的法律框架尚未完全准备好应对AI生成的内容,这带来了不确定性,并可能对创作者的生计造成长期损害。
我注意到这些法律上的争论大多围绕美国的_合理使用_法律展开,这些法律可以通过四个主要原则来解释。
- 使用的目的和性质: 考虑使用是否出于商业目的还是非盈利或教育目的。这也考虑使用是否具有转换性,即是否为原始作品增添了新的意义、目的或价值。
- 版权作品的性质: 考虑被使用作品的类型。创作性作品(如音乐、电影)比事实性作品(如数据汇编)享有更多的版权保护。
- 使用内容的数量和质量: 考虑使用内容的数量和质量。对于音乐来说,这可能是仅使用一小段歌曲和使用完整歌曲的区别。
- 使用对作品潜在市场价值的影响: 考虑新使用是否成为原始作品的替代品,从而减少其市场价值或潜在的许可机会。在某些情况下,表明这种使用可能有利于原始作品(例如增加其曝光度或受众),可能会加强合理使用的论据。
双方都有合理的观点,但值得注意的是,争议源于艺术家们感到被剥削,没有将他们纳入讨论之中。这种创作者的反感对更广泛的音乐AI社区带来了意想不到的影响,因为艺术家们现在默认的做法是,未经同意和补偿就使用他们的数据训练的任何AI模型(无论是生成式的还是其他类型的),他们都拒绝接受。
这标志着从之前的现状发生了范式转变,在之前的状态下,早期的非生成性机器学习模型可以自由地在任何公开可访问的数据上进行训练。就像谷歌广泛接受的做法一样,通过爬取网络数据来整合搜索结果,音乐曾经常常被用来训练ML推荐、分类和其他分析系统,而几乎未受审查。虽然谷歌允许网站选择不被索引,但由于其被认为有净效益,大多数网站选择允许索引。版权持有者理应有权决定谁使用他们的内容,但重要的是要强调这种改变,即从默认允许公开访问到默认限制访问他们的数据。想象一下,如果现在所有网站默认都不被索引,除非明确选择加入。
这并不是在说艺术家不应有权同意对其数据的训练,不应得到公平补偿,也不应了解相关信息。但这表明当前的做法将AI公司和版权持有者置于对立面,而不是作为合作伙伴。这使得音乐AI技术社区有责任重新赢得他们的信任。
这可能是因为“我们希望赋能艺术家,而不是取代他们”这句话已经变得有些泛滥和陈词滥调了。随着越来越多的人认为AI公司有不正当目的,这句话被用来向艺术家们传递一个信号,表明该公司希望成为一个合作伙伴,而不是对手。我很高兴看到大多数ISMIR社区成员团结起来支持这一观点,并积极研究开发一些悬而未决的挑战的解决方案。当我与艺术家和制作人一对一交谈时,他们表达了愿意在他们的担忧得到考虑的情况下与AI在音乐领域合作的开放态度。他们只是希望他们的作品使用要合法,并且能够同意自己的数据被用于训练模型。
所以虽然目前没有立即见效的方法来修复这个裂痕,这里可以作为公司开始的起点:
- 遵循4个公平使用的准则 — 社区和法院仍然需要确定什么是“原创性”,特别是在生成式人工智能方面。虽然这确实是一个复杂且难以量化的主题,但从一个简单的道德直觉就能回答 — “如果感觉不对劲,那很可能有问题”。
- 透明沟通 — 提供关于用于训练模型的数据的透明度。明确说明模型的类型(如生成式、非生成式)及其目的(如生成、分类)。促进权利持有人与AI公司之间的合作机会。
- 同意管理 — 根据具体情况决定是否允许权利持有人的数据被用于训练模型。默认的加入或退出选项还需进一步讨论,可能取决于不同的模型类型及用途。
- 许可与归属 — 与权利持有人合作,为每个使用场景确定适当的归属模型。这可以从一次性的许可到收入分成再到部分归属不等。
- 教育 — 让艺术家和权利持有人了解AI技术,以便他们知道自己在参与或退出时的情况。
- 版权追踪 — 鼓励开发技术工具,让艺术家能够追踪其作品在AI及其他领域的使用情况。
毕竟,这些要点中的每一个都可能会引发一系列问题和讨论。但是,拥有这些模型如何运作、相关各方以及行业现状的共同知识,是讨论这些复杂问题时考虑周到和细致的先决条件。这些对话对于解决如此紧迫的问题至关重要。没有人希望未来没有真正的音乐、艺术或创造力,因此减少情绪反应并找到共同的出发点,是(或许可以说)唯一的前进之路。
所有图片,除非另有注明,均为作者拍摄。
我是Whitebalance的一名音频机器学习工程师及研究员,同时也是一位终身热爱音乐的人。
欢迎在我的LinkedIn 和GitHub 上关注我,了解我最新的工作和研究成果。
您可以在 Spotify、Apple Music、YouTube、SoundCloud 以及其他流媒体平台上找到我的音乐,我是以“After August”的身份发布的。
共同学习,写下你的评论
评论加载中...
作者其他优质文章