这是用户在 2025-5-7 11:14 为 https://archive.ph/sX9xw 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

AI 正影响音乐领域,麻省理工学院技术评论

归档于 2025 年 4 月 16 日 10:18:42 UTC
Skip to Content

AI 也即将进入音乐领域

新的从零开始制作歌曲的扩散式 AI 模型正在使我们对作者身份和人类创造力的定义变得复杂。
""
Stuart Bradford
人工智能在 1956 年几乎还是一个术语,当时计算机领域顶尖的科学家们来到达特茅斯学院参加一个夏季会议。计算机科学家约翰·麦卡锡在会议的资助提案中首次提出了这个短语,这是一个旨在探讨如何构建能够使用语言、像人类一样解决问题并自我改进的机器的聚会。但这是一个很好的选择,它抓住了组织者的基本前提:人类智能的任何特征原则上都可以“被如此精确地描述,以至于可以制造出能够模拟它的机器。”
在他们的提案中,该小组列出了几个“人工智能问题的方面”。他们列表中的最后一项,从后见之明来看,也许是最困难的一项,是构建一个能够展现创造性和原创性的机器。
当时,心理学家正苦苦思索如何定义和衡量人类的创造力。当时盛行的理论——创造力是智力和高智商的产物——正在逐渐消退,但心理学家们不确定该用什么来取代它。达特茅斯组织者有自己的见解。“创造性思维和无创意的能干思维之间的区别在于某种随机性的注入,”他们写道,并补充说这种随机性“必须由直觉引导才能高效。”
近70年后,经历了该领域的多次繁荣与萧条周期,我们现在有了或多或少遵循该配方的人工智能模型。虽然在过去三年中,生成文本的大型语言模型爆炸式增长,但另一种基于所谓扩散模型的人工智能正在对创意领域产生前所未有的影响。通过将随机噪声转化为连贯的模式,扩散模型可以根据文本提示或其他输入数据生成新的图像、视频或语音。最好的扩散模型可以创造出与人类作品无法区分的输出,以及奇怪、超现实的、明显非人类的成果。
现在,这些模型正步入一个可以说比任何其他领域都更容易受到颠覆的创意领域:音乐。AI 生成的创意作品——从管弦乐表演到重金属音乐——正准备比 AI 迄今为止产生的任何其他产品更深入地融入我们的生活。无论我们是否注意到是谁(或是什么)创作的这些歌曲,它们都可能融入我们的流媒体平台、派对和婚礼歌单、电影配乐等等。
多年来,扩散模型在视觉艺术界引发了关于它们产生的内容是否反映真正的创作还是仅仅是复制的大讨论。现在,这场争论已经来到了音乐领域,这是一种深深嵌入我们的体验、记忆和社会生活中的艺术形式。音乐模型现在可以创作出能够引发真实情感反应的歌曲,这清楚地表明,在 AI 时代,要定义作者身份和原创性正变得越来越困难。
法院正积极应对这一模糊领域。大型唱片公司正在起诉顶尖的人工智能音乐生成器,指控扩散模型几乎只是复制人类艺术而没有补偿艺术家。模型制作者则反驳说他们的工具旨在辅助人类创作。
在判断谁是谁非时,我们被迫深入思考我们自身的人类创造力。无论是人工神经网络还是生物神经网络,创造力是否仅仅是大量统计学习和连接的结果,再加上一丝随机性?如果是这样,那么作者身份就是一个模糊的概念。如果不是——如果创造力中存在某种独特的人类元素——那是什么?没有人类创造者的事物打动我们的意义是什么?当我第一次听到一首真正出色的人工智能生成歌曲时,我不得不思考这些问题——知道有人仅仅输入提示并点击“生成”令人不安。这种情况很快也会降临到你们身上。

建立联系

在达特茅斯会议之后,与会者分道扬镳,走上了不同的研究方向,从而创建了人工智能的基础技术。与此同时,认知科学家遵循美国心理学会主席 J.P.吉尔福德的 1950 年号召,着手研究人类创造力的本质。他们最终给出了一个定义,该定义于 1953 年由心理学家莫里斯·斯坦在《心理学杂志》中首次正式化:创造性作品既新颖,意味着它们呈现了新的东西,又实用,意味着它们对某些人有所用途。有些人呼吁将“实用”替换为“令人满意”,还有人为创造性事物提出了第三个标准:创造性事物也令人惊讶。
后来,在20世纪90年代,功能磁共振成像的兴起使得人们能够研究更多领域(包括音乐)中创造力背后的神经机制。近年来,计算方法也使得人们更容易描绘出记忆和联想思维在创造性决策中所起的作用。
出现的与其说是关于创造性想法如何在脑中产生和展开的宏大统一理论,不如说是一个不断增长的强大观察列表。我们可以首先将人类的创造性过程分为阶段,包括一个构思或提议步骤,然后是一个更批判性和评估性的步骤,该步骤寻找想法的价值。关于指导这两个阶段的一个主要理论是创造力联想理论,该理论认为最有创造力的人可以在看似遥远的概念之间建立新颖的联系。
""
斯图尔特·布拉德福德
罗杰·比蒂说,一位领导宾夕法尼亚州立大学认知神经科学创造力实验室的研究员,“这可能就像激活扩散一样。” “你想到一件事;它就会激活与那个概念相关的其他概念。”
这些连接通常特别依赖于语义记忆,它存储概念和事实,而不是情景记忆,后者存储特定时间和地点的记忆。最近,更复杂的计算模型被用来研究人们如何在巨大的“语义距离”内建立概念之间的联系。例如,apocalypse 这个词与 nuclear power 的关系比与 celebration 的关系更密切。研究表明,创造力极高的人可能会将语义上非常不同的概念感知为彼此靠近。研究发现,艺术家比非艺术家更容易在更大的距离内产生词语联想。其他研究支持了这样一种观点,即创造力高的人的注意力是“泄漏”的——也就是说,他们经常注意到可能与他们当前任务不太相关的信息。
用于评估这些过程的神经科学方法并不表明创造力在大脑的特定区域展开。“大脑中没有任何像腺体分泌激素一样产生创造力,”创造力研究领域的领导者迪恩·基思·西蒙顿在《 创造力神经科学手册 》中写道。
相反,证据指向在创造性思维期间几个分散的活动网络,比伊说——一个通过联想思维支持初步产生想法,另一个参与识别有潜力的想法,还有一个用于评估和修改。一项由哈佛医学院研究人员领导、于 2 月份发表的新研究表明,创造力甚至可能涉及对特定大脑网络的抑制 ,比如那些与自我审查相关的网络。
目前,机器创造力——如果你可以称之为创造力的话——看起来截然不同。尽管在达特茅斯会议期间,人工智能研究人员对受人类大脑启发的机器感兴趣,但到了扩散模型被发明大约十年后,这种关注点已经发生了转变。
最佳的线索在于它们的名字。如果你将一支蘸有红墨水的画笔浸入一个装满水的玻璃罐中,墨水会扩散并旋转,看似随机地进入水中,最终形成淡粉色液体。扩散模型就是模拟这一过程的逆过程,从随机性中重建可识别的形态。
想要了解图像是如何工作的,可以想象一张大象的照片。为了训练模型,你复制这张照片,并在上面添加一层随机的黑白静态图像。再复制一张照片,添加更多静态图像,如此反复数百次,直到最后一张照片完全是静态的,看不到大象。对于中间的每张图像,统计模型会预测其中多少是噪声,多少是真正的大象。它将猜测与正确答案进行比较,并从错误中学习。经过数百万个这样的例子,模型在“去噪”图像和将这些模式与描述如“苏门答腊雄象在开阔地”等联系起来方面变得更好。
现在它已经被训练好了,生成新图像意味着逆转这个过程。如果你给模型一个提示,比如“一只快乐的猩猩在长满苔藓的森林里”,它会生成随机白噪声的图像,然后反向工作,利用其统计模型逐步去除噪声。一开始,粗糙的形状和颜色会出现。细节随后出现,最后(如果它工作正常的话)会浮现出一只猩猩,而模型本身并不知道什么是猩猩。

音乐图像

这种方法在音乐上的工作方式也基本相同。扩散模型并不是像乐队那样通过从钢琴和弦开始,逐渐添加人声和鼓点来“创作”一首歌曲。相反,所有元素都是一次性生成的。这个过程依赖于这样一个事实:一首歌曲的许多复杂性可以在单个波形中视觉化地表示,这个波形表示的是声波的振幅随时间的变化。
想象一下唱机。通过沿着唱片上的一个凹槽移动,针头会镜像刻录在材料中的声波路径,并将其转化为信号发送给扬声器。扬声器只是根据这些模式推动空气,产生传递整首歌曲的声波。
从远处看,波形图可能看起来就像它只是遵循歌曲的音量。但如果你足够仔细地放大,你可以在波峰和波谷中看到模式,比如低音吉他弹奏低音 G 时的 49 个每秒波。波形图包含了所有不同乐器和纹理的频率总和。“你会看到某些形状开始形成,”AI 音乐公司 Udio 的联合创始人 David Ding 说,“这和广泛的旋律感觉相对应。”
由于波形图,或称为谱图的类似图表,可以被当作图像处理,你可以从它们中创建一个扩散模型。模型被输入数百万个现有歌曲的片段,每个片段都带有描述标签。为了生成一首新歌,它从纯粹的随机噪声开始,然后反向工作以创建一个新的波形。它所采取的路径是由输入提示中的文字所塑造的。
丁在谷歌 DeepMind 工作了五年,担任图像和视频扩散模型的资深研究工程师,但他于 2023 年离开,创立了位于纽约的 Udio 公司。该公司及其竞争对手 Suno 公司(位于马萨诸塞州的剑桥)现在正引领音乐生成模型的竞赛。两家公司都旨在构建使非音乐家能够创作音乐的 AI 工具。Suno 公司规模更大,声称拥有超过 1200 万用户,并在 2024 年 5 月完成了一轮 1.25 亿美元的融资。该公司与艺术家 Timbaland 等合作。Udio 公司在 2024 年 4 月从 Andreessen Horowitz 等知名投资者以及音乐家 Will.i.am 和 Common 那里获得了 1000 万美元的种子轮融资。
Udio 和 Suno 目前的成果表明,存在相当一部分听众可能并不在乎他们听到的音乐是由人类还是机器制作的。Suno 为创作者提供了艺术家页面,其中一些拥有大量粉丝,他们完全使用 AI 生成歌曲,通常还配有 AI 生成的艺术家形象。这些创作者并非传统意义上的音乐家,而是熟练的提示者,他们创作出的作品无法归功于单一作曲家或歌手。在这个新兴领域,我们通常对作者身份的定义——以及创作与复制的界限——几乎都消失了。
Udio 和 Suno 目前的成果表明,存在相当一部分听众可能并不在乎他们听到的音乐是由人类还是机器制作的。
音乐产业正在反击。两家公司都在 2024 年 6 月被主要唱片公司起诉,诉讼仍在进行中。这些唱片公司包括环球和索尼,他们声称 AI 模型在“几乎难以想象的规模”上使用受版权保护的音乐进行训练,并生成模仿“真实人类声音录音质量”的歌曲(例如,针对 Suno 的诉讼引用了一首名为“Prancing Queen”的 ABBA 风格歌曲)。
Suno 没有回应关于诉讼的评论请求,但在 8 月份发布在 Suno 博客上的一篇回应案件的声明中,首席执行官 Mikey Shulman 表示,公司训练所使用的音乐来自公开互联网,其中“确实包含受版权保护的材料”。但是,他辩称,“学习并不构成侵权。”
Udio 的代表表示,公司不会对正在进行的诉讼进行评论。在诉讼期间,Udio 发布了一份声明,提到其模型具有过滤器,以确保“不会复制受版权保护的作品或艺术家的声音。”
美国版权办公室 1 月份发布的指导意见进一步加剧了问题的复杂性,该意见指出,如果 AI 生成的作品涉及相当程度的人类输入,则可以受到版权保护。一个月后,纽约的一位艺术家收到了可能是第一个由 AI 辅助创作的视觉艺术作品的版权。第一首歌可能就是下一个。

新颖性和模仿

这些法律案件涉及一个与人工智能领域其他正在进行的法庭斗争相似的灰色地带。争议点在于是否允许在受版权保护的内容上训练人工智能模型,以及生成的歌曲是否不公平地复制了人类艺术家的风格。
但无论这些法庭判决如何,人工智能音乐都可能以某种形式普及;据报道,YouTube 已与主要唱片公司就为其人工智能训练许可音乐进行谈判,而 Meta 最近扩大了其与环球音乐集团的协议,表明人工智能生成音乐的许可可能就在考虑范围内。
如果人工智能音乐会持续存在,其中任何一部分会好吗?考虑三个因素:训练数据、扩散模型本身以及提示。模型只能像它学习的音乐库和音乐的描述一样好,这些描述必须复杂才能很好地捕捉它。然后,模型的架构决定了它能够多好地利用所学知识来生成歌曲。并且,你输入到模型中的提示——以及模型“理解”你对“把萨克斯风声调降下来”等含义的程度——也至关重要。
结果是创造还是简单地复制训练数据?我们也可以对人类的创造力提出同样的问题。
毫无疑问,最重要的问题是第一个:训练数据有多广泛和多样化,以及它们被标记得有多好?Suno 和 Udio 都没有透露它们训练集中使用了哪些音乐,但这些细节很可能在诉讼过程中必须披露。
Udio 表示,这些歌曲的标记方式对模型至关重要。“我们积极研究的一个领域是:我们如何获得越来越精细的音乐描述?”丁说。基本描述将识别音乐类型,但您还可以说明一首歌是忧郁的、振奋人心的还是平静的。更技术性的描述可能会提到二五一和弦进行或特定的音阶。Udio 表示,这是通过机器和人工标记相结合来完成的。
“由于我们希望针对广泛的用户群体,这也意味着我们需要广泛的音乐标注者,”他说。“不仅仅是拥有音乐博士学位、能够在非常技术层面上描述音乐的人,还有对自己的音乐描述有自己非正式词汇的音乐爱好者。”
竞争性 AI 音乐生成器必须不断学习人类创作的新歌曲,否则它们的输出将停滞不前,听起来陈旧过时。为此,当今的 AI 生成音乐依赖于人类创作的艺术。然而,未来 AI 音乐模型可能会在自己的输出上进行训练,这种方法在其他 AI 领域正在被试验。
由于模型从随机噪声采样开始,因此它们是非确定性的;用相同的提示给同一个 AI 模型,每次都会生成一首新歌。这也是因为许多扩散模型的制作者,包括 Udio,通过过程注入额外的随机性——本质上是在每一步生成的波形上稍作扭曲,希望添加一些瑕疵,使输出更有趣或更真实。Dartmouth 会议的组织者自己在 1956 年就推荐了这种策略。
根据 Udio 联合创始人兼首席运营官 Andrew Sanchez 的说法,生成式 AI 程序中固有的随机性让许多人感到震惊。在过去的 70 年里,计算机一直执行确定性程序:给软件输入,每次都会得到相同的响应。
“我们很多艺术家合作伙伴会问,‘为什么它会这样做?’”他说。“我们回答,‘我们其实也不知道。’”生成式时代需要一种新的思维方式,即使是创造它的公司也是如此:AI 程序可能是混乱且难以理解的。
结果是创作还是仅仅是训练数据的复制?AI 音乐的爱好者告诉我,我们也可以对人类的创造力提出同样的问题。在我们年轻时听音乐时,学习相关的神经机制会受到这些输入的影响,这些歌曲的记忆会影响我们的创造性输出。在一项最近的研究中,休斯敦大学音乐学教授、作曲家 Anthony Brandt 指出,人类和大型语言模型都使用过去的经验来评估可能的未来场景并做出更好的选择。
的确,人类艺术中的许多作品,尤其是在音乐领域,都是借鉴来的。这常常导致诉讼,艺术家们指控歌曲未经许可被抄袭或采样。一些艺术家建议应该让扩散模型更加透明,这样我们就能知道某首歌曲的灵感来源是三成大卫·鲍伊和一成卢·里德。Udio 表示目前正在进行相关研究以实现这一目标,但目前还没有人能可靠地做到这一点。
对于伟大的艺术家来说,“那种新颖性和影响力相结合的现象一直在起作用,”桑切斯说。“我认为这种现象在这些技术中也同样存在。”
但是在许多领域,试图将人类神经网络与人工神经网络等同起来的尝试在审查下迅速分崩离析。Brandt 阐述了一个他认为是人类创造力明显超越其机器制造对应物的领域:他称之为“放大异常”。AI 模型在统计抽样的领域内运行。它们不是通过强调异常来工作,而是通过减少错误和寻找可能的模式来工作。另一方面,人类对怪癖感兴趣。“怪癖不应被视为怪异事件或‘孤例’,”Brandt 写道,“而是渗透到创意产品中。”
""
斯图尔特·布拉德福德
他引用了贝多芬在其第八交响曲末乐章中加入一个刺耳的错音的决定。“贝多芬本可以到此为止,”布兰德特说。“但他并没有将其视为偶然,而是以各种方式继续参考这个不协调的事件。通过这样做,这位作曲家将一个短暂的异常放大了其影响。”人们可以参考晚期披头士录音的后向循环采样、弗兰克·奥申的升调人声,或者像查理·普斯和比莉·艾利什的制作人芬尼克斯·奥康奈尔这样的艺术家所喜欢的“发现声音”,例如人行横道信号或关门的声音。
如果创意产出确实被定义为既新颖又有用,布兰德特的解释表明,机器可能在第二个标准上与我们匹敌,而人类在第一个标准上仍然占据主导地位。
为了验证这一点,我花了几天时间尝试使用 Udio 的模型。生成一个 30 秒的样本需要一分钟或两分钟,但如果你有该模型的付费版本,你可以生成整首歌曲。我决定挑选 12 种音乐类型,为每种类型生成一个歌曲样本,然后寻找由人类制作的歌曲。我制作了一个测验,看看我们新闻室里的人能否分辨出哪些歌曲是由 AI 制作的。
平均得分是 46%。对于几种类型,尤其是器乐类型,听众的判断错误率更高。当我看着人们做这个测试时,我注意到他们自信地认为是 AI 作曲的迹象——听起来假的乐器、奇怪的歌词——很少能证明他们是正确的。人们在他们不太熟悉的类型中表现更差;有些人能在乡村音乐或灵魂音乐上做得不错,但很多人在爵士乐、古典钢琴或流行音乐面前毫无胜算。创造力研究者 Beatty 的得分是 66%,而作曲家 Brandt 的得分是 50%(尽管他在管弦乐和钢琴奏鸣曲测试中答对了)。

AI-generated music samples

All songs were generated using Udio, and took 2-10 prompts to make. For songs with vocals, Udio's AI model wrote the lyrics as well (and generated the vocals).
要记住,这里的模型并非全功臣;没有训练数据中人类艺术家的贡献,这些输出是无法创建的。但只需几个提示,模型就能生成让大多数人难以分辨是否由机器制作的歌曲。其中几首甚至可以轻松在派对上播放而无人质疑,我作为终身音乐家和通常比较挑剔的音乐爱好者,真的找到了两首很喜欢。但听起来真实并不等同于听起来有创意。这些歌曲并没有体现出奇特或异常——至少不像贝多芬的“惊吓片段”那样。它们似乎也没有融合不同流派或跨越主题的巨大跳跃。在我的测试中,人们有时难以判断一首歌曲是 AI 生成的还是仅仅糟糕。
最终这件事会有多大影响?法院将在决定 AI 音乐模型提供的是复制还是新创作——以及在这个过程中艺术家如何得到补偿——方面发挥作用,但作为听众,我们将决定它们的文化价值。要欣赏一首歌,我们需要想象背后有一个人类艺术家——一个有经验、有抱负、有观点的人吗?如果我们发现一首伟大的歌是由 AI 创作的,它还会是伟大的歌吗?
Sanchez 说人们可能会想知道音乐背后是谁。但他表示,“归根结底,无论 AI 组件有多少,人类组件有多少,它都是艺术,”他说。“人们将根据它的美学价值来反应。”
然而,在我的实验中,我发现这个问题对人们真的很重要——有些人激烈地抵制了享受由计算机模型制作的音乐的想法。当我的一个测试对象在测试中本能地开始随着一首电子流行歌曲点头时,她的脸上流露出怀疑。几乎就像她尽力想象一个人类而不是机器是这首歌的作曲家一样。“天啊,”她说,“我真的很希望这不是 AI。”
它是。

深入解析

人工智能

a chat bubble with two Manus logo hands intersects with a computer

人工智能领域的每个人都在谈论 Manus。我们对其进行了测试。

来自中国的全新通用人工智能代理系统出现了一些系统崩溃和服务器过载——但它非常直观,并显示出对未来人工智能助手的真正潜力。
a cowboy astride a rabbit uses a carrot on a stick to lead it toward a hole

Anthropic 现在可以追踪大型语言模型的奇怪内部运作

该公司发现的结果挑战了关于这项技术如何真正运作的一些基本假设。

中国建造了数百个 AI 数据中心来抓住 AI 热潮。现在许多都闲置着。

这个国家在 AI 基础设施上投入了数十亿美元,但数据中心淘金热正在瓦解,投机性投资与需求疲软以及 DeepSeek 改变 AI 趋势相碰撞。
chessboard vortex

人工智能推理模型可以作弊来赢得象棋比赛

这些更新的模型似乎比前几代更容易违反规则——而且没有办法阻止它们。

保持连接

插图:Rose Wong

获取来自 MIT Technology Review 的最新更新

发现特别优惠、热门故事、即将举行的活动等。
感谢您提交电子邮件!
探索更多通讯录
看起来好像出了点问题。
我们在保存您的偏好设置时遇到了困难。 试试刷新这个页面并更新它们 需要更多时间。如果你继续收到此消息, 请联系我们 customer-service@technologyreview.com,并提供你想接收的通讯列表。
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%