这是用户在 2025-3-12 10:47 为 https://app.immersivetranslate.com/pdf-pro/b067cc49-d91d-4de0-941e-d1d80dc24ede/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


人工智能在音乐生成中的应用与进展: 评述

Yanxu Chen, 1 1 ^(1){ }^{1} Linshu Huang, 2 2 ^(2){ }^{2} Tian Gou 3 3 ^(3){ }^{3}
1 1 ^(1){ }^{1} 基石学院,北京,中国

西安交通利物浦大学,中国苏州

3 3 ^(3){ }^{3} XrayBot AI Lab, 北京,中国
yanxu.chen@student.keystoneacademy.cn, linshu.huang22@student.xjtlu.edu.cn, goutian@xraybot.com

  摘要


近年来,人工智能(AI)在音乐生成领域取得了显著进展,推动了音乐创作和应用的创新。本文对 AI 音乐生成的最新研究进展进行了系统回顾,涵盖了关键技术、模型、数据集、评估方法及其在各个领域的实际应用。 本次评审的主要贡献包括:(1) 提供一个全面的总结框架,系统地分类和比较不同的技术方法,包括符号生成、音频生成和混合模型,帮助读者更好地理解该领域的技术全景;(2) 提供对现有文献的广泛调查,涵盖新兴主题,如多模态数据集和情感表达评估,为相关研究提供广泛的参考;(3) 对 AI 音乐生成在各种应用领域的实际影响进行详细分析,特别是在实时交互和跨学科应用方面,提供新的视角和见解;(4) 总结现有的音乐质量评估方法的挑战和局限,提出潜在的未来研究方向,旨在促进评估技术的标准化和更广泛的应用。通过这些创新的总结和分析,本文成为 AI 音乐生成领域研究人员和从业者的综合参考工具,同时也为该领域的未来发展指明方向。

  介绍


音乐作为一种普遍而深刻的艺术形式,超越了文化和地域的界限,在情感表达中发挥着无与伦比的作用(Juslin and Sloboda 2011)。随着科技的快速发展,音乐创作已从 20 世纪初依赖模拟设备和录音带的手动操作,演变为今天完全数字化的制作环境(Katz 2010;Pinch and Bijsterveld 2012;Deruty et al. 2022;Oliver and Lalchev 2022)。在这一演变过程中,人工智能(AI)的引入为音乐创作注入了新的活力,推动了自动音乐生成技术的快速发展,并为创新带来了前所未有的机遇(Briot, Hadjeres, and Pachet 2020;Zhang, Yan, and Briot 2023)。

研究背景和现状:自动音乐生成的研究可以追溯到超过

60 年来,最早的尝试主要基于语法规则和概率模型(Hiller 和 Isaacson 1979;Dash 和 Agres 2023)。然而,随着深度学习技术的崛起,人工智能音乐生成领域进入了前所未有的繁荣期(Goodfellow 2016;Moysis 等 2023)。现代人工智能技术不仅可以处理符号音乐数据,还可以直接生成高保真音频内容,应用范围从传统乐器模拟到全新的声音设计(Oord 等 2016;Lei 等 2024)。符号音乐生成依赖于诸如钢琴卷和 MIDI 等表示方法,使得复杂结构的音乐作品得以创作;与此同时,音频生成模型直接处理连续音频信号,产生逼真且分层的声音(Dong 等 2018;Ji、Yang 和 Luo 2023)。

近年来,AI 音乐生成技术取得了显著进展,尤其是在模型架构和生成质量方面(Huang et al. 2018a; Agostinelli et al. 2023)。生成对抗网络(GANs)、Transformer 架构和最新的扩散模型的应用,为生成音乐的多样性、结构及表现力提供了强有力的支持(Goodfellow et al. 2014; Vaswani 2017; Ho, Jain, and Abbeel 2020; Kong et al. 2020b; Shahriar 2022)。此外,结合符号生成和音频生成优势的新型混合模型框架进一步增强了生成音乐的结构完整性和音色表现力(Huang et al. 2018a; Wang, Min, and Xia 2024; Qian et al. 2024)。这些进展不仅扩展了 AI 音乐生成的技术边界,也为音乐创作开辟了新的可能性(Wang et al. 2024)。

研究动机:尽管在人工智能音乐生成方面取得了重大进展,但仍然存在许多挑战。提高生成音乐的原创性和多样性、捕捉音乐中的长期依赖关系和复杂结构、以及开发更标准化的评估方法是该领域迫切需要解决的核心问题。此外,随着人工智能生成音乐的应用领域不断扩大——如医疗、内容创作和教育——对生成音乐的质量和控制的需求也在增加。这些挑战为未来的研究和技术创新提供了广阔的空间。


研究目标:本文旨在系统地


回顾符号音乐和音频音乐生成的最新研究进展,探索它们在各种应用场景中的潜力和挑战,并预测未来的发展方向。通过对现有技术和方法的全面分析,本文旨在为 AI 音乐生成领域的研究人员和从业者提供有价值的参考,并激发进一步的创新和探索。我们希望这项研究能够促进 AI 在音乐创作中的持续创新,使其成为未来音乐制作的核心工具。本文的核心逻辑如图 1 所示。


音乐制作的历史


音乐制作的早期阶段


在 20 世纪初,音乐制作主要依赖于模拟设备和录音带技术。音响工程师和制作人使用大型模拟调音台进行录音、混音和母带制作。这一时期强调现场表演的手艺和艺术性,录音技术和设备的限制使得捕捉每一个音符的过程充满了不确定性和随机性。(Zak III 2001; Horning 2013) 合成器的引入为音乐创作带来了革命性的变化,特别是在电子音乐方面。1970 年代,合成器变得越来越流行,像 Moog 和 Roland 这样的品牌象征着电子音乐的时代。合成器通过调制波形(例如正弦波和三角波)生成各种声音,使音乐制作人能够在单一乐器上创建广泛的音调和效果,从而极大地扩展了音乐表达的可能性。(Pinch and Trocco 2004; Holmes 2012)

数字音频工作站(DAWs)的崛起


随着数字技术的进步,数字音频工作站(DAWs)在 1980 年代末和 1990 年代初开始崛起。DAWs 的出现标志着音乐制作进入数字时代,将录音、混音、编辑和作曲整合到一个软件平台中,使音乐制作过程更加高效和便捷(Hracs, Seman, 和 Virani 2016;Danielsen 2018;Théberge 2021;Cross 2023)。MIDI(音乐仪器数字接口)的广泛应用进一步推动了数字音乐制作的发展。MIDI 促进了数字乐器与计算机之间的通信,成为现代音乐制作中的关键工具。著名的 DAWs 如 Logic Pro、Ableton Live 和 FL Studio 为制作人提供了集成的工作环境,简化了音乐创作过程,并实现了音乐制作的民主化(D’Errico 2016;Reuter 2022)。


插件和虚拟乐器的扩展


数字音频工作站(DAWs)的普及促进了插件和虚拟乐器的发展。插件作为软件扩展,为 DAWs 增加了新的功能或音效,大大扩展了音乐制作的创作潜力。像 Kontakt 这样的平台提供了各种高质量的虚拟乐器,而合成器插件如 Serum 和 Phase Plant 则利用先进的波表合成,为制作人提供了广泛的声音设计可能性。插件的多样性和灵活性极大地拓宽了


图 1:我们评审的核心逻辑


音乐制作的创意空间,使制作人能够在一个软件环境中调制、编辑和叠加各种音效(Tanev 和 Božinovski 2013;Wang 2017;Rambarran 2021)。

人工智能在音乐制作中的应用

随着技术的进步,人工智能(AI)逐渐进入音乐制作领域。AI 技术能够分析大量的音乐数据,提取模式和特征,并生成新的音乐作品。Max/MSP,一个早期的交互式音频编程环境,允许用户通过编码创建自己的音效和乐器,这标志着 AI 技术在音乐制作中的初步应用(Tan and Li 2021;Hernandez-Olivan and Beltran 2022;Ford et al. 2024;Marschall 2007;Privato, Rampado, and Novello 2022)。

随着人工智能技术的成熟,基于机器学习的工具应运而生,能够根据给定的数据集生成音乐,并自动化混音和母带处理等任务。现代人工智能音乐生成技术不仅可以模拟现有风格,还可以创造全新的音乐形式,为音乐创作开辟了新的可能性(Taylor, Ardeliya, and Wolfson 2024)。

今天的音乐制作完全是数字化的,制作人能够在 DAW 中完成从作曲到母带制作的每一个步骤。插件的多样性和复杂性不断增长,包括声码器、谐振器和卷积混响,给音乐创作带来了无限的可能性。人工智能的引入进一步拓展了音乐创作的边界,实现了自动化和智能制作的现实(Briot、Hadjeres 和 Pachet 2020;Agostinelli 等 2023)。现代音乐制作不仅是技术积累的结果,也是艺术与技术融合的模型。人工智能技术的引入丰富了音乐创作工具箱,激发了新音乐风格的出现,使音乐创作变得更加多样化和动态化(Deruty 等 2022;Tao 2022;Goswami 2023)。

  音乐表示


音乐数据的表示是 AI 音乐生成系统的核心组件,直接影响生成结果的质量和多样性。不同的音乐表示方法捕捉音乐的不同特征,显著影响 AI 模型的输入和输出。以下是一些常用的音乐表示方法及其应用场景:

  3.1 钢琴卷


钢琴卷是一个二维矩阵,直观地表示音乐的音符和时机,使其特别适合捕捉旋律和和弦结构。矩阵的行表示音高,列表示时间,值指示在给定时间点某个特定音高是否被激活。这种表示法在深度学习模型中被广泛使用,因为它直接映射到神经网络的输入和输出层,从而促进复杂音乐结构的处理和生成。比如,

MuseGAN(Dong et al. 2018)使用钢琴卷表示法进行多声部音乐创作,通过生成对抗网络(GANs)生成和声丰富的作品。


3.2 MIDI(乐器数字接口)


MIDI 是一种数字协议,用于描述各种音乐参数,如音符、音高、力度、节拍和和弦。MIDI 文件不记录实际的音频数据,而是记录控制音频的指令,使其高度灵活,并允许在不同的合成器和虚拟乐器上以各种风格进行播放。MIDI 广泛用于音乐创作、编排和 AI 音乐生成,特别是在符号音乐生成中,它作为输入和输出数据的重要格式。它的优点在于跨平台和跨设备的兼容性以及对音乐参数的精确控制。MusicVAE(Brunner et al. 2018)利用 MIDI 表示符号音乐,其中音符和时序是离散的,使得模型能够更好地捕捉结构特征,并生成具有复杂和声和旋律的音乐。


3.3 梅尔频率倒谱系数(MFCCs)


MFCC 是音频信号光谱特征的紧凑表示,广泛用于语音和音乐处理,特别有效于捕捉音乐中的微妙差异。通过将音频信号分解为短时间帧并应用 Mel 频率尺度,MFCC 捕捉人耳感知的音频特征。尽管主要用于语音识别,MFCC 在音乐情感分析、风格分类和音频信号处理方面也有广泛应用。例如,谷歌的 NSynth 项目使用 MFCC(Engel et al. 2017)生成和分类不同的音色。

  3.4 乐谱


乐谱是一种传统的音乐表现形式,通过五线谱和各种音乐符号记录音乐信息。它不仅包括音高和节奏,还包括力度、表现标记和其他演奏指示。在人工智能音乐生成中,乐谱表示法也被采用,特别是用于生成符合音乐理论的可读作曲。使用乐谱作为输入的模型,如 Music Transformer(Huang et al. 2018b),可以生成具有复杂结构和连贯性的作曲。

  3.5 音频波形


音频波形直接表示音频信号的时域波形,适合生成和处理实际音频数据。尽管波形表示涉及大量数据和复杂处理,但它提供了最原始和详细的音频信息,这对于音频合成和声音设计至关重要。例如,WaveNet(van den Oord 等,2016)模型直接使用波形生成高度真实的语音和音乐。

  3.6 声谱图


声谱图将音频信号转换为频域表示,显示频率谱随时间的演变。常见的声谱图包括短时傅里叶变换(STFT)声谱图、Mel 声谱图和常量 Q 变换声谱图。声谱图在音乐分析、分类和生成中非常有用,因为它们捕捉了频率的变化。


音频信号的结构和时间特征。Tacotron 2(Wang et al. 2017)模型使用声谱图作为生成音频的中间表示,将文本输入转换为梅尔声谱图,然后使用 WaveNet 生成最终的波形音频。DDSP 模型(Engel et al. 2020)采用声谱图作为中间表示,通过操控频域信号生成高质量音频。它结合了传统数字信号处理(DSP)技术和深度学习模型,以生成逼真的乐器音色和复杂的音频效果,在音乐生成和声音设计方面表现出色。

  3.7 和弦进行


和弦进行是表示时间变化的和弦序列,对于流行音乐、爵士乐和古典音乐至关重要。人工智能音乐生成系统可以学习和弦进行的模式,从而生成和谐且结构化的音乐。例如,ChordGAN 模型(Lu and Dubnov 2021)用于为流行音乐中的背景和声生成和弦进行。

  3.8 音高轮廓


音高轮廓表示音高随时间的变化,特别有助于分析和生成旋律线。音高轮廓捕捉音乐中微妙的音高变化,有助于生成流畅自然的旋律。OpenAI 的 Jukebox 模型(Dhariwal et al. 2020)使用音高轮廓生成协调的旋律和伴奏的完整歌曲。

  生成模型


AI 音乐生成领域可以分为两个主要方向:符号音乐生成和音频音乐生成。这两种方法对应于不同的音乐创作层次和形式。


4.1 符号音乐生成


符号音乐生成使用人工智能技术创建音乐的符号表示形式,例如 MIDI 文件、乐谱或钢琴卷。该方法的核心在于学习音乐的结构、和弦进行、旋律和节奏模式,以生成具有逻辑性和结构性的音乐作品。这些模型通常处理离散的音符数据,生成的结果可以直接播放或进一步转换为音频。在符号音乐生成中,LSTM 模型表现出强大的能力。例如,DeepBach(Hadjeres, Pachet, and Nielsen 2017a)使用 LSTM 生成巴赫风格的和声,根据给定的音乐片段生成和谐的和弦进行。然而,符号音乐生成面临着捕捉长期依赖关系和复杂结构的挑战,特别是在生成整个乐章或歌曲规模的音乐时,保持长期音乐依赖关系可能会很困难。

近期,基于 Transformer 的符号音乐生成模型在捕捉长期依赖关系方面展现了更高效的能力。例如,流行音乐 Transformer(Huang 和 Yang 2020)结合了自注意力机制和 Transformer 架构,在生成流行音乐方面取得了显著的进步。


盟友,MuseGAN,一个基于 GAN 的多轨符号音乐生成系统,可以生成适合创作丰富层次和复杂和声的多声部音乐。MuseCoco 模型(Lu et al. 2023)将自然语言处理与音乐创作相结合,从文本描述中生成符号音乐,并允许对音乐元素进行精确控制,使其成为创作复杂符号音乐作品的理想选择。然而,符号音乐生成主要集中在音符和结构上,对音色和表现力的控制有限,突显了其局限性。


4.2 音频音乐生成


音频音乐生成直接生成音乐的音频信号,包括波形和频谱图,处理可以直接播放或用于音频处理的连续音频信号。这种方法更接近于音乐制作中的录音和混音阶段,能够产生具有复杂音色和真实感的音乐内容。

WaveNet(van den Oord et al. 2016)是一种基于深度学习的生成模型,捕捉音频信号中的微妙变化以生成富有表现力的音乐音频,广泛用于语音合成和音乐生成。Jukebox(Dhariwal et al. 2020)由 OpenAI 开发,结合了 VQ-VAE 和自回归模型,能够生成带有歌词和复杂结构的完整歌曲,其音质和表现力接近真实录音。然而,音频音乐生成通常需要大量的计算资源,尤其是在处理大量音频数据时。此外,音频生成模型在长期控制音乐的结构和逻辑方面面临挑战。

最近关于扩散模型的研究取得了显著进展,最初用于图像生成,但现在已扩展到音频。例如,DiffWave(Kong et al. 2020b)和 WaveGrad(Chen et al. 2020b)是两个代表性的音频生成模型;前者通过渐进去噪过程生成高保真音频,后者通过类似的扩散过程生成详细的音频。MeLoDy 模型(Stefani 1987)结合了语言模型(LMs)和扩散概率模型(DPMs),在保持高音频质量的同时减少了正向传播的次数,解决了计算效率问题。Noise2Music(Huang et al. 2023a)基于扩散模型,专注于文本提示与生成音乐之间的关联,展示了生成与输入文本描述紧密相关的音乐的能力。

总体而言,符号音乐生成和音频音乐生成代表了人工智能音乐生成的两个主要方向。符号音乐生成适用于处理和生成结构化、可解释的音乐,而音频音乐生成则更注重音频信号的细节和表现力。未来的研究可以结合这两种方法,以增强人工智能音乐生成的表现力和实用性,实现从符号到音频的无缝过渡,并为音乐创作提供更全面的技术支持。


4.3 当前主要类型的生成模型


AI 音乐生成的核心在于使用不同


AI 音乐生成发展的时间线

  1950 年代-1960 年代:
  早期探索

1960 年:约翰·乔宁发现了频率调制(FM)合成,为计算机生成音乐奠定了基础。

1957 年,Lejaren Hiller 和 Leonard Isaacson 使用 ILLIAC 计算机创作了世界上第一部计算机生成的作品“Illiac Suite”,标志着计算机辅助音乐创作的开始。
  1970 年代-1980 年代:

建立基础

  技术

1974 年:Hiller 和 Isaacson 进一步探索了使用语法规则和概率模型进行音乐生成,形成了 AI 音乐生成技术的早期原型。1983 年:MIDI 协议发布,标准化了音乐数据的交流,促进了符号音乐生成的发展。


1989 年:大卫·科普开发了《音乐智能实验》(EMI),使用计算机分析和模拟人类作曲家的作曲风格。
  1990 年代:

  • 开发与应用

符号音乐生成


1997 年:Cope 的 EMI 创作了作品“Bach by Design”,该作品获得了广泛认可,并展示了人工智能在模仿音乐风格方面的潜力。1999 年:Craig Reynolds 提出了一种基于遗传算法的音乐生成方法,为演化算法在音乐生成中的应用打开了大门。
  2000 年代:

  • 深度学习的早期应用
  学习

2002 年:道格拉斯·埃克和尤尔根·施米特胡伯开发了一种基于递归神经网络(RNNs)的音乐生成模型,标志着深度学习在音乐生成中的首次应用。


2007 年:马丁·罗尔梅耶提出了基于生成语法的音乐建模,推动了符号音乐生成的理论基础。
  2010 年代:

深度学习的崛起和


生成对抗网络

(GANs)

2016 年:谷歌推出了 Magenta 项目,探索使用深度学习进行音乐生成,包括 MIDI-RNN 和 NSynth 等工具。

2017 年:DeepBach 使用 LSTM 生成巴赫


风格和声,展示了人工智能在符号音乐生成方面的能力。


2017 年:MuseGAN 基于生成对抗网络(GAN),实现了多轨符号音乐生成,推动了复杂音乐作品的自动创作。


2018 年:OpenAI 推出了 MuseNet,一种基于 Transformer 的模型,能够生成多风格音乐,展示了 Transformer 在符号音乐生成中的强大性能。
  2020 年代:

扩散模型的突破


和多模态生成


2020 年:WaveNet 模型由 DeepMind 开发,用于生成高质量的音频波形,广泛应用于语音合成和音乐生成。2020 年:DiffWave 和 MelGAN 引入了扩散模型,进一步提升了音频生成的保真度和细节。

2021:OpenAI 的 Jukebox 模型,结合 VQ-

  • VAE 和自回归模型生成了复杂的音乐作品和歌词,展示了音频生成模型的潜力。

2023:MeLoDy 结合了语言模型(LMs)和扩散模型(DPMs),以实现高效和高质量的


高质量音频生成,解决了之前模型的计算效率问题。

图 2:人工智能音乐生成发展时间线


生成模型用于模拟和创作音乐。每个模型都有其独特的优势和应用场景。以下是一些主要的生成模型及其应用:

长短期记忆网络(LSTM):LSTM 在处理具有时间依赖性的序列数据方面表现出色,能够有效捕捉音乐中的长期依赖关系,并生成连贯且富有表现力的音乐序列。像 BachBot(Liang 2016)和 DeepBach(Hadjeres, Pachet, and Nielsen 2017b)这样的模型利用 LSTM 生成巴赫风格的音乐,展示了 LSTM 在音乐生成方面的强大能力。然而,LSTM 模型通常需要大量数据进行训练,并且计算成本相对较高,限制了它们在资源受限环境中的应用。

生成对抗网络(GAN):GAN 通过生成器和判别器之间的对抗训练生成高质量、逼真的音乐内容,使其特别适合生成复杂多样的音频。例如,DCGAN(Radford, Metz, and Chintala 2016)在生成高保真音频方面表现出色。像 WaveGAN(Donahue, McAuley, and Puckette 2019)和 MuseGAN(Ji, Yang, and Luo 2023)这样的模型在单声部和多声部音乐生成方面都有显著进展。MusicGen(Copet et al. 2024)是由 Meta 开发的基于深度学习的音乐生成模型,能够从噪声或特定输入条件中生成高质量、多样化的音乐片段。然而,GAN 的训练过程可能不稳定,并可能遭遇模式崩溃,导致生成的音乐缺乏多样性。

Transformer 架构:Transformer 利用自注意力机制高效处理序列数据,特别擅长捕获音乐作品中的长距离依赖关系和复杂结构。值得注意的工作包括 Music Transformer(Huang et al. 2018a),该模型使用自注意力生成结构化的音乐片段,有效捕捉多个时间尺度上的主题和重复结构。这导致生成的音乐在结构上连贯,更接近人类的作曲风格。MusicLM(Agostinelli et al. 2023)将基于 Transformer 的语言模型与音频生成相结合,在从文本描述生成高保真音乐音频方面提供了创新。然而,Transformer 模型在训练和生成时需要大量的计算资源。

变分自编码器 (VAE): VAE 通过学习潜在表示来生成新数据点,适用于涉及多样性和创造性的音乐生成任务。MIDI-VAE 模型(Brunner et al. 2018)使用 VAE 进行音乐风格转换,展示了 VAE 在生成多样化音乐方面的潜力。条件变分自编码器 (CVAE) 通过引入条件信息来增强多样性,减少了模式崩溃的风险。OpenAI 的 Jukebox(Dhariwal et al. 2020)将向量量化 VAE (VQ-VAE-2)与自回归模型相结合,生成带有歌词和复杂结构的完整歌曲。与 GAN 或变换器相比,VAE 生成的音乐可能在音乐性和连贯性上有所欠缺。

扩散模型:扩散模型通过逐渐去除噪音来生成高质量音频内容,创建


它们适合高保真音乐生成。最近的研究包括 Riffusion 模型(Forsgren 和 Martiros 2022),利用 Stable Diffusion 模型进行实时音乐生成,从文本提示或图像条件中生成各种风格的音乐;Moûsai(Schneider et al. 2024),一个基于扩散的音乐生成系统,实时从文本提示生成持久的高质量音乐。扩散模型的漫长训练和生成过程可能限制其在实时音乐生成场景中的应用。

其他模型和方法:除了上述提到的模型,卷积神经网络(CNNs)、其他类型的递归神经网络(RNNs)以及结合多个模型的方法也已被应用于音乐生成。此外,基于规则的方法和进化算法为音乐生成提供了多样化的技术和创意方法。例如,WaveNet(Oord et al. 2016),一个基于 CNN 的模型,在直接建模音频信号方面具有创新性。MelGAN(Kumar et al. 2019)使用高效的卷积架构生成详细的音频。


4.4 混合模型框架:集成符号和音频音乐生成

最近,研究人员认识到,结合符号和音频音乐生成的优势可以显著提升生成音乐的整体质量。符号音乐生成模型(如 MIDI 或乐谱生成模型)擅长捕捉音乐结构和逻辑,而音频生成模型(如 WaveNet(Oord et al. 2016)或 Jukebox(Dhariwal et al. 2020))则专注于生成高保真和复杂音色的音频信号。然而,每种模型都有其独特的局限性:符号生成模型在音色表现上往往缺乏表现力,而音频生成模型在长程结构建模方面则存在困难。为了解决这些挑战,近期的研究提出了结合符号和音频生成优势的混合模型框架。一种常见的策略是使用共同采用变分自编码器(VAE)和变换器的方法。例如,在像 MuseNet(Topirceanu, Barina, and Udrescu 2014)和 MusicVAE(Yang et al. 2019)这样的模型中,符号音乐首先由变换器生成,然后转换为音频信号。 这些模型通常使用变分自编码器(VAE)来捕捉音乐的潜在表示,并采用变换器(Transformers)生成顺序符号表示。自监督学习方法在符号音乐生成中越来越受到关注。这些方法通常包括预训练模型以捕捉音乐的结构信息,然后将其应用于下游任务。像 Jukebox(Dhariwal 等,2020)这样的模型利用自监督学习增强生成模型的泛化能力和鲁棒性。

此外,将分层符号音乐生成与级联扩散模型相结合已被证明是有效的(Wang, Min, and Xia 2024)。这种方法定义了一种分层音乐语言,以捕捉不同层次的语义和上下文依赖关系。高级语言处理歌曲的整体结构,比如段落和短语,而低级语言则专注于


音符、和弦和局部模式。级联扩散模型在每个层级进行训练,每一层的输出都以前一层为条件,从而能够控制生成音乐的整体结构和局部细节。

符号生成和音频生成框架的融合将符号表示与音频信号结合在一起,产生的音乐不仅在结构上连贯,而且在音色和细腻表达上也非常丰富。符号生成部分确保和声与逻辑,而音频生成部分则增加了复杂的音色和动态变化,为创作高质量和多层次的音乐铺平了道路。不同基础模型相关工作的示例见表 1。AI 音乐生成技术的发展轨迹可见于图 2。

  数据集


在人工智能音乐生成领域,数据集的选择和使用对模型性能和生成结果的质量有深远影响。数据集不仅为模型训练提供基础,还在增强生成音乐的多样性、风格和表现力方面发挥关键作用。本节介绍了人工智能音乐生成中常用的数据集,并讨论它们的特性和应用场景。


5.1 音乐生成中常用的开源数据集


在音乐生成领域,以下数据集是广泛使用的资源,涵盖了从情感识别到音频合成的各种研究方向。本节介绍这些数据集,包括其开发者或拥有者,并简要描述它们的具体应用。
  • CAL500 (2007)

CAL500 数据集(Turnbull et al. 2007),由加州大学圣地亚哥分校的 Gert Lanckriet 及其团队开发,包含 500 首 MP3 歌曲,每首歌曲都有详细的情感标签。这些标签通过听众的主观评估收集,涵盖了各种情感类别。该数据集对静态情感识别和情感分析研究具有高度价值。

- MagnaTagATune (MTAT) (2008)


由 Edith Law、Kris West、Michael Mandel、Mert Bay 和 J. Stephen Downie 开发的 MagnaTagATune 数据集(Law et al. 2009)使用了一款名为“TagATune”的在线游戏来收集数据。它包含约 25,863 个音频片段,每个长度为 29 秒,来源于Magnatune.com的歌曲。每个片段都与一个由 188 个标签组成的二进制向量相关,标签由多个玩家独立注释。该数据集在自动音乐注释、情感识别和乐器分类研究中得到了广泛应用。


- 诺丁汉音乐数据集 (2009)


诺丁汉音乐数据集(BoulangerLewandowski, Bengio, and Vincent 2012)最初由埃里克·福克斯利在诺丁汉大学开发,并在 SourceForge 上发布。它包括超过 1,000 首适合 ABC 记谱法的传统民间旋律。该数据集已广泛用于传统音乐创作、音乐风格分析和符号音乐研究。


- 百万歌曲数据集 (MSD) (2011)


百万歌曲数据集(Bertin-Mahieux et al. 2011)是一个为大规模音乐信息检索研究而设计的基准数据集,提供了丰富的处理过的音乐特征,但不包括原始音频或歌词。它通常用于音乐推荐系统和特征提取算法。


- MediaEval 音乐中的情感 (2013)


MediaEval 音乐情感数据集(Soleymani 等,2013)包含 1 , 000 MP 3 1 , 000 MP 3 1,000MP31,000 \mathrm{MP} 3 首歌曲,专门用于音乐情感识别研究。情感标签是通过一组注释者的主观评估获得的,这使其对开发和验证音乐情感识别模型非常有用。

- AMG1608 (2015)


AMG1608 数据集(Penha 和 Cozman 2015),由卡门·佩尼哈、法比奥·G·科兹曼及圣保罗大学的研究人员开发,包含 1,608 个音乐片段,每个片段 30 秒,经过 665 个受试者的情感标注。该数据集由于其详细的情感标注,尤其是由 46 名受试者标注的超过 150 首歌曲的标注,非常适合个性化音乐情感识别研究。
  •   VCTK 语料库(2016)

由爱丁堡大学 CSTR 实验室开发的 VCTK Corpus(Christophe Veaux 2017)包含 110 位具有不同口音的母语英语说话者录制的语音数据。每位说话者朗读了大约 400 个句子,包括来自新闻文章、彩虹段落和口音档案的文本。该数据集广泛用于自动语音识别(ASR)和文本转语音(TTS)模型的开发。

- Lakh MIDI (2017)


Lakh MIDI 数据集(Raffel 2016)是一个包含 176,581 个独特 MIDI 文件的集合,其中有 45,129 个文件与百万歌曲数据集中的条目匹配并对齐。它旨在促进大规模音乐信息检索,包括符号(仅使用 MIDI 文件)和基于音频(使用从 MIDI 文件提取的信息作为匹配音频文件的注释)研究。
  • NSynth (2017)

NSynth(Engel 等人,2017),由谷歌的 Magenta 团队开发,是一个大规模音频数据集,包含超过 300,000 个单音声音样本,这些样本是使用来自商业样本库的乐器生成的。每个音符具有独特的音高、音色和包络特征,采样频率为 16 kHz,持续 4 秒。该数据集包括来自不同乐器在不同音高和音速下采样的音符。
  • DEAM (2017)

DEAM 数据集(Aljanaki, Yang 和 Soleymani 2017)由日内瓦大学的研究团队开发,专门用于音乐中的动态情感识别。它包含 1,802 件音乐作品,包括 1,744 个 45 秒的音乐片段和 58 首完整歌曲,涵盖摇滚、流行、电子、乡村和爵士等音乐风格。这些歌曲随着时间的推移标注了动态的愉悦度和唤醒度,提供了对音乐情感动态变化的洞察。
  模型类型   相关研究   优点   挑战   适用场景
LSTM DeepBach, BachBot

擅长捕捉时间依赖性和序列数据
Good at capturing temporal dependencies and sequential data| Good at capturing temporal | | :--- | | dependencies and sequential | | data |

高计算成本,训练需要大量数据集,难以处理长期依赖关系
High computational cost, training requires large datasets, struggles with long-term dependencies| High computational cost, | | :--- | | training requires large | | datasets, struggles with | | long-term dependencies |

适合于顺序音乐生成任务,如和声和旋律生成
Suitable for sequential mu- sic generation tasks, such as harmonization and melody generation| Suitable for sequential mu- | | :--- | | sic generation tasks, such as | | harmonization and melody | | generation |
GAN
  MuseGAN, Wave-GAN
MuseGAN, Wave- GAN| MuseGAN, Wave- | | :--- | | GAN |

高质量、真实的生成,适合复杂和多样的音频
High-quality, realistic gener- ation, suitable for complex and diverse audio| High-quality, realistic gener- | | :--- | | ation, suitable for complex | | and diverse audio |

训练可能不稳定,容易出现模式崩溃,限制在捕捉结构和长期依赖上
Training can be unstable, prone to mode collapse, lim- ited in capturing structure and long-term dependencies| Training can be unstable, | | :--- | | prone to mode collapse, lim- | | ited in capturing structure | | and long-term dependencies |

理想用于生成复杂的音频内容,如多乐器音乐或多样的音效
Ideal for generating com- plex audio content like multi-instrument music or diverse sound effects| Ideal for generating com- | | :--- | | plex audio content like | | multi-instrument music or | | diverse sound effects |
  变压器

音乐变换器,MusicLM
Music Transformer, MusicLM| Music Transformer, | | :--- | | MusicLM |

擅长捕捉长距离依赖关系和复杂结构
Excellent at capturing long- range dependencies and complex structures| Excellent at capturing long- | | :--- | | range dependencies and | | complex structures |

高计算需求,需要大量数据进行训练
High computational de- mand, requires large amounts of data for training| High computational de- | | :--- | | mand, requires large | | amounts of data for training |

最适合生成具有复杂结构、长序列和连贯作品的音乐
Best for generating mu- sic with complex structures, long sequences, and coher- ent compositions| Best for generating mu- | | :--- | | sic with complex structures, | | long sequences, and coher- | | ent compositions |
VAE MIDI-VAE, Jukebox

鼓励多样性和创造力,适合风格迁移
Encourages diversity and creativity, suitable for style transfer| Encourages diversity and | | :--- | | creativity, suitable for style | | transfer |

生成的音乐相比于 GANs 或 Transformers 可能缺乏音乐一致性和表现力
Generated music can lack musical coherence and ex- pressiveness compared to GANs or Transformers| Generated music can lack | | :--- | | musical coherence and ex- | | pressiveness compared to | | GANs or Transformers |

最适合需要高变异性和创造性的任务,例如风格迁移和音乐探索
Best for tasks requiring high variability and creativity, such as style transfer and music exploration| Best for tasks requiring high | | :--- | | variability and creativity, | | such as style transfer and | | music exploration |
  扩散模型

DiffWave, WaveGrad, Noise2Music
DiffWave,WaveGrad, Noise2Music| DiffWave,WaveGrad, | | :--- | | Noise2Music |

高质量音频生成,擅长制作高保真音乐
High-quality audio genera- tion, excels in producing high-fidelity music| High-quality audio genera- | | :--- | | tion, excels in producing | | high-fidelity music |

训练和生成时间可能很长,在实时场景中具有挑战性
Training and generation time can be long, challeng- ing in real-time scenarios| Training and generation | | :--- | | time can be long, challeng- | | ing in real-time scenarios |

适合生成高质量的音频和音效,特别是在媒体制作中
Suitable for generating high- quality audio and sound ef- fects, particularly in media production| Suitable for generating high- | | :--- | | quality audio and sound ef- | | fects, particularly in media | | production |
  混合模型 MuseNet, MusicVAE

结合了符号模型和音频模型的优势,控制结构和音色
Combines strengths of sym- bolic and audio models, con- trols structure and timbre| Combines strengths of sym- | | :--- | | bolic and audio models, con- | | trols structure and timbre |

在整合不同模型类型时的复杂性需要更复杂的调优
Complexity in integrating different model types, re- quires more sophisticated tuning| Complexity in integrating | | :--- | | different model types, re- | | quires more sophisticated | | tuning |

非常适合创作需要结构一致性和丰富音频表现力的音乐,适用于高级音乐作曲
Ideal for creating music that requires both structural co- herence and rich audio ex- pressiveness, useful in ad- vanced music composition| Ideal for creating music that | | :--- | | requires both structural co- | | herence and rich audio ex- | | pressiveness, useful in ad- | | vanced music composition |
Model Type Related Research Strengths Challenges Suitable Scenarios LSTM DeepBach, BachBot "Good at capturing temporal dependencies and sequential data" "High computational cost, training requires large datasets, struggles with long-term dependencies" "Suitable for sequential mu- sic generation tasks, such as harmonization and melody generation" GAN "MuseGAN, Wave- GAN" "High-quality, realistic gener- ation, suitable for complex and diverse audio" "Training can be unstable, prone to mode collapse, lim- ited in capturing structure and long-term dependencies" "Ideal for generating com- plex audio content like multi-instrument music or diverse sound effects" Transformer "Music Transformer, MusicLM" "Excellent at capturing long- range dependencies and complex structures" "High computational de- mand, requires large amounts of data for training" "Best for generating mu- sic with complex structures, long sequences, and coher- ent compositions" VAE MIDI-VAE, Jukebox "Encourages diversity and creativity, suitable for style transfer" "Generated music can lack musical coherence and ex- pressiveness compared to GANs or Transformers" "Best for tasks requiring high variability and creativity, such as style transfer and music exploration" Diffusion Models "DiffWave,WaveGrad, Noise2Music" "High-quality audio genera- tion, excels in producing high-fidelity music" "Training and generation time can be long, challeng- ing in real-time scenarios" "Suitable for generating high- quality audio and sound ef- fects, particularly in media production" Hybrid Models MuseNet, MusicVAE "Combines strengths of sym- bolic and audio models, con- trols structure and timbre" "Complexity in integrating different model types, re- quires more sophisticated tuning" "Ideal for creating music that requires both structural co- herence and rich audio ex- pressiveness, useful in ad- vanced music composition"| Model Type | Related Research | Strengths | Challenges | Suitable Scenarios | | :--- | :--- | :--- | :--- | :--- | | LSTM | DeepBach, BachBot | Good at capturing temporal <br> dependencies and sequential <br> data | High computational cost, <br> training requires large <br> datasets, struggles with <br> long-term dependencies | Suitable for sequential mu- <br> sic generation tasks, such as <br> harmonization and melody <br> generation | | GAN | MuseGAN, Wave- <br> GAN | High-quality, realistic gener- <br> ation, suitable for complex <br> and diverse audio | Training can be unstable, <br> prone to mode collapse, lim- <br> ited in capturing structure <br> and long-term dependencies | Ideal for generating com- <br> plex audio content like <br> multi-instrument music or <br> diverse sound effects | | Transformer | Music Transformer, <br> MusicLM | Excellent at capturing long- <br> range dependencies and <br> complex structures | High computational de- <br> mand, requires large <br> amounts of data for training | Best for generating mu- <br> sic with complex structures, <br> long sequences, and coher- <br> ent compositions | | VAE | MIDI-VAE, Jukebox | Encourages diversity and <br> creativity, suitable for style <br> transfer | Generated music can lack <br> musical coherence and ex- <br> pressiveness compared to <br> GANs or Transformers | Best for tasks requiring high <br> variability and creativity, <br> such as style transfer and <br> music exploration | | Diffusion Models | DiffWave,WaveGrad, <br> Noise2Music | High-quality audio genera- <br> tion, excels in producing <br> high-fidelity music | Training and generation <br> time can be long, challeng- <br> ing in real-time scenarios | Suitable for generating high- <br> quality audio and sound ef- <br> fects, particularly in media <br> production | | Hybrid Models | MuseNet, MusicVAE | Combines strengths of sym- <br> bolic and audio models, con- <br> trols structure and timbre | Complexity in integrating <br> different model types, re- <br> quires more sophisticated <br> tuning | Ideal for creating music that <br> requires both structural co- <br> herence and rich audio ex- <br> pressiveness, useful in ad- <br> vanced music composition |

表 1:不同生成模型在音乐生成中的比较

- LJSpeech (2017)


LJSpeech 数据集(Ito 和 Johnson 2017)是一个公共领域的语音数据集,由 13,100 个短音频片段组成,均为一位讲者朗读七本非虚构类书籍。每个片段都有相应的文本转录,长度从 1 到 10 秒,时长总计约 24 小时。这些文本的出版时间介于 1884 年至 1964 年,并且属于公共领域。


- 自由音乐档案 (FMA) (2017)


FMA(Defferrard 等人 2017),由洛桑联邦理工学院(EPFL)的 Michaël Defferrard 和其他人开发,是一个来自自由音乐档案馆(Free Music Archive,FMA)的大规模音乐数据集。它包含 106,574 首音乐曲目,涵盖 161 种不同的音乐风格,具有高质量的完整音频、丰富的元数据、预计算的音频特征和层次化的音乐风格标签。FMA 广泛用于音乐分类、检索、风格识别和音频特征提取研究。

- AudioSet (2017)


AudioSet(Gemmeke et al. 2017)是由 Google 开发的大规模音频数据集,包含来自 YouTube 视频的超过 200 万个标记的 10 秒音频片段。该数据集使用 635 个音频类别的分层本体,涵盖各种日常声音事件。由于其广泛的音频类别和高质量的注释,AudioSet 是音频事件检测、分类和多模态学习的重要基准。

- CH818 (2017)


CH818 数据集(Hu 和 Yang 2017)包含 818 个带有情感标签的中文流行音乐片段,主要用于情感驱动的音乐生成和流行音乐


风格分析。尽管在注释一致性方面存在挑战,但该数据集为中国背景下的音乐生成和情感识别研究提供了宝贵资源。

  - URMP 数据集 (2018)


URMP 数据集(Li et al. 2018)旨在促进音乐表演的音视频分析。它包含 44 首多乐器音乐作品,由单独录制的音轨同步组合演出。该数据集提供 MIDI 乐谱、高质量单个乐器录音和合奏表演视频。

- MAESTRO (2018)


MAESTRO(用于同步轨道和组织的 MIDI 和音频编辑)(Hawthorne 等,2018)是由 Google AI 开发的数据集,包含超过 200 小时的对齐 MIDI 和音频录音,主要来源于国际钢琴比赛。MIDI 数据包括速度和踏板控制等细节,与高质量音频( 44.1 48 kHz 44.1 48 kHz 44.1-48kHz44.1-48 \mathrm{kHz} 16 位 PCM 立体声)精确对齐(3 毫秒),使其成为音乐生成和自动钢琴转录研究的重要资源。


- Groove MIDI 数据集 (GMD) (2019)


The Groove MIDI Dataset(Gillick et al. 2019)包含 13.6 小时的人类表演鼓乐的 MIDI 和音频数据。使用 Roland TD11 V-Drum 电子鼓套件录制,包含 1,150 个 MIDI 文件和超过 22,000 小节的鼓乐,由 10 名鼓手演奏,包括专业人士和业余爱好者。

- GiantMIDI-Piano (2020)


GiantMIDI-Piano 数据集(Kong et al. 2020a)包含 10,855 首独奏钢琴曲的 MIDI 文件,这些文件是通过高分辨率音频录音自动转录而成的。
  模型名称   基础架构   使用的数据集 Data tion Representa-  Data   tion   Representa-  [{:[" Data "],[" tion "]:}," Representa- "]\begin{array}{ll} \hline \begin{array}{l} \text { Data } \\ \text { tion } \end{array} & \text { Representa- } \end{array}   损失函数   
WaveNet CNN
VCTK 语料库,YouTube 数据
  波形   L1 损失 2016
BachBot LSTM   巴赫合唱曲数据集   符号数据   交叉熵损失 2016
DCGAN CNN
Lakh MIDI 数据集 ( ( (( LMD )
  音频波形
二元交叉熵损失
2016
DeepBach LSTM   巴赫合唱曲数据集   MIDI 文件   交叉熵损失 2017
MuseGAN GAN   Lakh MIDI 数据集 ( LMD ) ( LMD ) (LMD)(\mathrm{LMD})   多轨 MIDI
二元交叉熵损失
2018
MIDI-VAE VAE
MIDI 文件(经典,爵士,流行,巴赫,莫扎特)

俯仰滚转,速度滚转,仪器滚转

交叉熵,均方误差,KL 散度
2018
  音乐变换器   变压器   Lakh MIDI 数据集 (LMD)   MIDI 文件   交叉熵损失 2019
WaveGAN GAN
语音命令,AudioSet
  音频波形
GAN 损失(Wasserstein 距离)
2019
Jukebox   VQ-VAE + 自回归 1.2 million songs ( LyricWiki) 1.2  million   songs  (  LyricWiki)  [1.2" million "" songs "],[(" LyricWiki) "]\begin{aligned} & \hline 1.2 \text { million } \text { songs } \\ & (\text { LyricWiki) } \end{aligned}   音频波形
重建损失,感知损失
2019
MelGAN   基于 GAN 的 VCTK, LJSpeech   音频波形
GAN 损失(多尺度判别器)
2019
  流行音乐变压器 Transformer-XL
自定义数据集(流行钢琴音乐)

REMI(节奏事件度量信息)
  交叉熵损失 2020
DiffWave   扩散模型 VCTK, LJSpeech   波形   L1 损失,GAN 损失 2020
Riffusion   扩散 + CLIP
大规模流行音乐数据集(自定义)
  频谱图像
扩散损失,重建损失
2022
MusicLM Transformer + Au- dioLDM  Transformer + Au-   dioLDM  {:[" Transformer + Au- "],[" dioLDM "]:}\begin{aligned} & \text { Transformer + Au- } \\ & \text { dioLDM } \end{aligned} Free Music Archive (FMA)  Free Music Archive   (FMA)  {:[" Free Music Archive "],[" (FMA) "]:}\begin{aligned} & \text { Free Music Archive } \\ & \text { (FMA) } \end{aligned}   音频波形
交叉熵损失,对比损失
2023
MusicGen   变压器   Shutterstock,Pond5   音频波形
交叉熵损失,感知损失
2023
  音乐控制网   扩散模型   MusicCaps(1800 小时)   音频波形   扩散损失 2023
Moûsai   扩散模型 Moûsai-2023   梅尔谱图   谱损失,GAN 损失 2023
MeLoDy LM-guided Diffu-
257k 小时的非人声音乐
  音频波形   交叉熵损失, 2023
MuseCoco   基于 GAN 的
多个 MIDI 数据集,包括 Lakh MIDI 和 MetaMIDI
  多轨 MIDI

二元交叉熵损失
Binary Cross- Entropy Loss | Binary | Cross- | | :--- | :--- | | Entropy Loss | |
2023
Noise2Music   扩散模型 MusicCaps, MTAT, Audioset   音频波形   扩散损失 2023
Model Name Base Architecture Dataset Used " Data, tion Representa- " Loss Function Year WaveNet CNN VCTK Corpus, YouTube Data Waveform L1 Loss 2016 BachBot LSTM Bach Chorale Dataset Symbolic Data Cross-Entropy Loss 2016 DCGAN CNN Lakh MIDI Dataset ( LMD ) Audio Waveform Binary Cross- Entropy Loss 2016 DeepBach LSTM Bach Chorale Dataset MIDI File Cross-Entropy Loss 2017 MuseGAN GAN Lakh MIDI Dataset (LMD) Multi-track MIDI Binary Cross- Entropy Loss 2018 MIDI-VAE VAE MIDI files (Classic, Jazz, Pop, Bach, Mozart) Pitch roll, Velocity roll, Instrument roll Cross Entropy, MSE, KL Divergence 2018 Music Transformer Transformer Lakh MIDI Dataset (LMD) MIDI File Cross-Entropy Loss 2019 WaveGAN GAN Speech Commands, AudioSet Audio Waveform GAN Loss (Wasserstein Distance) 2019 Jukebox VQ-VAE + Autoregressive "1.2 million songs ( LyricWiki) " Audio Waveform Reconstruction Loss, Perceptual Loss 2019 MelGAN GAN-based VCTK, LJSpeech Audio Waveform GAN Loss (MultiScale Discriminator) 2019 Pop Music Transformer Transformer-XL Custom Dataset (Pop piano music) REMI (Rhythm-Event-Metric Information) Cross-Entropy Loss 2020 DiffWave Diffusion Model VCTK, LJSpeech Waveform L1 loss, GAN loss 2020 Riffusion Diffusion + CLIP Large-Scale Popular Music Dataset (Custom) Spectrogram Image Diffusion Loss, Reconstruction Loss 2022 MusicLM " Transformer + Au- dioLDM " " Free Music Archive (FMA) " Audio Waveform Cross-Entropy Loss, Contrastive Loss 2023 MusicGen Transformer Shutterstock, Pond5 Audio Waveform Cross-Entropy Loss, Perceptual Loss 2023 Music ControlNet Diffusion Model MusicCaps ( 1800 hours) Audio Waveform Diffusion Loss 2023 Moûsai Diffusion Model Moûsai-2023 Mel-spectrogram Spectral loss, GAN loss 2023 MeLoDy LM-guided Diffu- 257k hours of non-vocal music Audio Waveform Cross-Entropy Loss, 2023 MuseCoco GAN-based Multiple MIDI datasets including Lakh MIDI and MetaMIDI Multi-track MIDI "Binary Cross- Entropy Loss " 2023 Noise2Music Diffusion Model MusicCaps, MTAT, Audioset Audio Waveform Diffusion Loss 2023| Model Name | Base Architecture | Dataset Used | $\begin{array}{ll} \hline \begin{array}{l} \text { Data } \\ \text { tion } \end{array} & \text { Representa- } \end{array}$ | Loss Function | Year | | :---: | :---: | :---: | :---: | :---: | :---: | | WaveNet | CNN | VCTK Corpus, YouTube Data | Waveform | L1 Loss | 2016 | | BachBot | LSTM | Bach Chorale Dataset | Symbolic Data | Cross-Entropy Loss | 2016 | | DCGAN | CNN | Lakh MIDI Dataset $($ LMD ) | Audio Waveform | Binary Cross- Entropy Loss | 2016 | | DeepBach | LSTM | Bach Chorale Dataset | MIDI File | Cross-Entropy Loss | 2017 | | MuseGAN | GAN | Lakh MIDI Dataset $(\mathrm{LMD})$ | Multi-track MIDI | Binary Cross- Entropy Loss | 2018 | | MIDI-VAE | VAE | MIDI files (Classic, Jazz, Pop, Bach, Mozart) | Pitch roll, Velocity roll, Instrument roll | Cross Entropy, MSE, KL Divergence | 2018 | | Music Transformer | Transformer | Lakh MIDI Dataset (LMD) | MIDI File | Cross-Entropy Loss | 2019 | | WaveGAN | GAN | Speech Commands, AudioSet | Audio Waveform | GAN Loss (Wasserstein Distance) | 2019 | | Jukebox | VQ-VAE + Autoregressive | $\begin{aligned} & \hline 1.2 \text { million } \text { songs } \\ & (\text { LyricWiki) } \end{aligned}$ | Audio Waveform | Reconstruction Loss, Perceptual Loss | 2019 | | MelGAN | GAN-based | VCTK, LJSpeech | Audio Waveform | GAN Loss (MultiScale Discriminator) | 2019 | | Pop Music Transformer | Transformer-XL | Custom Dataset (Pop piano music) | REMI (Rhythm-Event-Metric Information) | Cross-Entropy Loss | 2020 | | DiffWave | Diffusion Model | VCTK, LJSpeech | Waveform | L1 loss, GAN loss | 2020 | | Riffusion | Diffusion + CLIP | Large-Scale Popular Music Dataset (Custom) | Spectrogram Image | Diffusion Loss, Reconstruction Loss | 2022 | | MusicLM | $\begin{aligned} & \text { Transformer + Au- } \\ & \text { dioLDM } \end{aligned}$ | $\begin{aligned} & \text { Free Music Archive } \\ & \text { (FMA) } \end{aligned}$ | Audio Waveform | Cross-Entropy Loss, Contrastive Loss | 2023 | | MusicGen | Transformer | Shutterstock, Pond5 | Audio Waveform | Cross-Entropy Loss, Perceptual Loss | 2023 | | Music ControlNet | Diffusion Model | MusicCaps ( 1800 hours) | Audio Waveform | Diffusion Loss | 2023 | | Moûsai | Diffusion Model | Moûsai-2023 | Mel-spectrogram | Spectral loss, GAN loss | 2023 | | MeLoDy | LM-guided Diffu- | 257k hours of non-vocal music | Audio Waveform | Cross-Entropy Loss, | 2023 | | MuseCoco | GAN-based | Multiple MIDI datasets including Lakh MIDI and MetaMIDI | Multi-track MIDI | Binary Cross- <br> Entropy Loss | 2023 | | Noise2Music | Diffusion Model | MusicCaps, MTAT, Audioset | Audio Waveform | Diffusion Loss | 2023 |

表 2:代表性的音乐生成模型:关键特征和技术细节


年谱系。该数据集涵盖了来自 2,786 位作曲家的丰富曲目,准确捕捉了音高、起始时间、结束时间和动态等音乐细节,使其成为钢琴音乐生成、转录和音乐分析的宝贵资源。

  - LakhNES(2019)


由 Chris Donahue 开发的 LakhNES 数据集(Donahue et al. 2019)是一个大型 MIDI 数据集,专注于为多乐器音乐生成的语言模型进行预训练。它结合了 Lakh MIDI 和 NES-MDB 数据集的数据,提供了多样化和独特的训练材料,适合于跨领域多乐器音乐生成任务中的复杂 Transformer 架构。

- Slakh2100 (2019)


Slakh2100 数据集(Manilow 等人,2019 年)由 MIDI 作品和合成的高质量音频文件组成,


包括 2,100 个多轨音乐作品。旨在用于音频源分离和多轨音频建模研究,提供丰富的多种乐器训练材料,供音乐信息检索、音频分离和音乐生成使用。

- MG-VAE (2020)


MG-VAE 数据集(Luo et al. 2020)由西安交通大学的研究团队开发,包含超过 2000 首 MIDI 格式的中国民间歌曲,涵盖汉族和少数民族地区。它采用变分自编码器(VAE)方法将音高和节奏分离到风格和内容的不同潜在空间,支持音乐风格迁移和跨文化音乐生成研究。

- Groove2Groove (2020)


Groove2Groove 数据集(Cífka, Şimşekli 和 Richard 2020)是为了音乐风格迁移研究而开发的,


包含数千个各种风格和节奏的音乐音频片段。它包括真实乐器的录音和合成音频,广泛应用于风格转换、音乐伴奏生成和自动编曲研究。

- Hi-Fi Singer (2020)


由 HiFiSinger 项目团队开发的数据集专注于高保真歌声合成研究(Chen et al. 2020a)。它包含超过 11 小时的高质量歌唱录音,采样率为 48 kHz,解决了高采样率建模和细腻声学细节的挑战。它广泛用于高质量歌声合成、歌声分离和音频恢复研究。

- MIDI-DDSP (2021)


MIDI-DDSP 数据集(Wu et al. 2021)结合了 MIDI 文件和使用可微分数字信号处理(DDSP)技术合成的高质量音频。它用于基于物理模型的音乐生成和合成研究,支持需要对音乐表现进行详细控制的乐器建模和音频生成应用。


- 唱歌声音转换 (2023)


唱歌声音转换数据集源自唱歌声音转换挑战赛(SVCC 2023),来自 NUS-HLT Speak-Sing 数据集的一个子集(Huang et al. 2023b)。它包括来自多位歌手的唱歌和语音数据,用于唱歌声音转换和风格转移研究,支持能够将一种歌手的声音风格转换为另一种歌手的系统的开发,这对唱歌合成和模仿研究至关重要。

请参阅表 3 以比较这些数据集的基本信息。


5.2 数据集选择的重要性


高质量的数据集不仅提供丰富的训练材料,还显著提升了生成模型在不同音乐风格和复杂结构中的表现。因此,在选择和构建数据集时,仔细考虑以下关键因素是至关重要的:

  • 多样性:一个涵盖广泛音乐风格、结构和表现的多样化数据集有助于生成模型学习不同类型的音乐特征。多样性可以防止模型过拟合于特定风格或结构,从而增强它们在音乐生成中的创造力和适应性。例如,Lakh MIDI Dataset(Raffel 2016)和 NSynth Dataset(Engel et al. 2017)因其多样性而受到研究人员的欢迎,涵盖了从古典音乐到流行音乐的广泛曲目。

  • 规模:数据集的规模直接影响模型的泛化能力。特别是在深度学习模型中,大规模数据集提供了更多的训练样本,使得模型能够更好地捕捉和学习复杂的音乐模式。这个原则在许多领域得到了验证,例如谷歌 Magenta 使用大规模数据集训练其生成模型并取得了显著成果。在 AI 音乐生成中,规模不仅意味着大量样本,还包含广泛的音乐风格和形式。

  • 质量:数据集的质量在很大程度上决定了


    音乐生成的有效性。高质量的数据集通常包括专业录制和标注的音乐,为模型提供准确和高保真的训练材料。例如,像 MUSDB18(Stöter, Liutkus, and Ito 2018)和 DAMP(Digital Archive of Mobile Performances)(Smule 2018)这样的数据集提供高质量的音频和详细的注释,支持音乐生成模型的精确训练。

  • 标签信息:丰富的标签信息(例如,音高、动态、乐器类型、情感标签)为生成模型提供了更精确的上下文信息,增强了生成音乐的表现力和准确性。具有详细标签的数据集,如 The GiantMIDI Dataset(Kong et al. 2020a),不仅包括 MIDI 数据,还包括音高、和弦和旋律的详细注释,使模型能够生成更具表现力的音乐作品。


    5.3 数据集面临的挑战 尽管数据集在人工智能音乐生成中发挥着关键作用,但它们面临着几个挑战,这些挑战限制了当前模型的性能和进一步的研究进展:

  • 数据集可用性:高质量和多样化的音乐数据集稀缺,特别是在涉及特定风格或高保真音频生成的任务中。虽然像 Lakh MIDI Dataset(Raffel 2016)这样的公开可用数据集非常庞大,但在某些特定音乐风格或高保真音频领域仍然缺乏数据。这种稀缺性限制了模型在特定任务上的表现,并阻碍了多样化音乐生成的研究进展。

  • 版权问题:音乐的版权限制是一个主要障碍。由于版权保护,许多高质量的音乐数据集无法公开发布,研究人员通常只能访问有限的数据集。这一限制不仅限制了数据源,而且导致研究中缺乏某些音乐风格。版权问题还影响了音乐生成模型的训练和评估,使得将研究结果推广到更广泛的音乐领域变得具有挑战性。

  • 数据集偏见:数据集中的音乐风格和结构常常存在偏见,这可能导致生成模型产生的输出缺乏多样性或偏向某些风格。例如,如果一个数据集以流行音乐为主,模型可能会偏向生成流行风格的音乐,而忽视其他类型的音乐。这种偏见不仅影响模型的泛化能力,还限制了其在多样化音乐生成中的表现。


    5.4 未来数据集需求 随着 AI 音乐生成技术的发展,对更大、更高质量和更多样化的数据集的需求不断增长。为了推动该领域的进展,未来的数据集开发应集中在以下几个方向:

  • 多模态数据集:未来的研究将越来越关注多模态数据的使用。包含音频、MIDI、歌词、视频和其他模态的数据集将为多模态生成模型的研究提供关键支持。例如,AudioSet Dataset(Gemmeke et al. 2017)作为一个多模态音频数据集,已经在多模态学习中展示了潜力。通过整合各种数据形式,研究人员可以开发出更复杂和精确的生成模型,从而增强表达能力。
  数据集名称      类型   规模   主要应用领域
CAL500 2007   音频   500 首歌曲   情感识别
MagnaTagATune 2008   音频   25,863 个剪辑
音乐标注,情感识别
  诺丁汉音乐数据集 2009 MIDI   1000 首曲子   符号音乐分析
  百万歌曲数据集 2011   音频   1,000,000 首歌曲
音乐信息检索

MediaEval 音乐中的情感
2013   音频   1000 首歌曲   情感识别
AMG1608 2015   音频 1608 clips   情感识别
  VCTK 语料库 2016   音频   110 个扬声器   语音识别,TTS
Lakh MIDI 2017 MIDI   176,581 个文件
音乐信息检索
NSynth 2017   音频   300,000 个样本   音乐合成
DEAM 2017   音频   1802 首歌曲   情感识别
LJSpeech 2017   音频   13,100 个剪辑   语音合成
  自由音乐档案馆 (FMA) 2017   音频   106,574 首歌曲   音乐分类
AudioSet 2017   音频   2,000,000 个剪辑   音频事件检测
CH818 2017   音频   818 剪辑   情感识别
URMP 2018   音频、视频、MIDI   44 场表演   音频视觉分析
MAESTRO 2018   MIDI,音频   200 小时
音乐生成,钢琴转录
  Groove 数据集 2019   MIDI,音频   13.6 小时   节奏生成
GiantMIDI-Piano 2020 MIDI   10,855 首歌曲
音乐转录,分析
LakhNES 2019 MIDI
775,000 多种仪器示例
  音乐生成
Slakh2100 2019   MIDI,音频   2100 条曲目   源分离
MG-VAE 2020 MIDI   2000 首歌曲   风格迁移
Groove2Groove 2020   音频   数千个剪辑   风格迁移
  高保真歌手 2021   音频   11 小时   歌声合成
MIDI-DDSP 2022   MIDI,音频   多样化
音乐生成,合成
  歌唱声音转换 2023   音频   NHSS 的子集   声音转换
Dataset Name Year Type Scale Main Application Areas CAL500 2007 Audio 500 songs Emotion Recognition MagnaTagATune 2008 Audio 25,863 clips Music Annotation, Emotion Recognition Nottingham Music Dataset 2009 MIDI 1000 tunes Symbolic Music Analysis Million Song Dataset 2011 Audio 1,000,000 songs Music Information Retrieval MediaEval Emotion in Music 2013 Audio 1000 songs Emotion Recognition AMG1608 2015 Audio 1608 clips Emotion Recognition VCTK Corpus 2016 Audio 110 speakers Speech Recognition, TTS Lakh MIDI 2017 MIDI 176,581 files Music Information Retrieval NSynth 2017 Audio 300,000 samples Music Synthesis DEAM 2017 Audio 1802 songs Emotion Recognition LJSpeech 2017 Audio 13,100 clips Speech Synthesis Free Music Archive (FMA) 2017 Audio 106,574 songs Music Classification AudioSet 2017 Audio 2,000,000 clips Audio Event Detection CH818 2017 Audio 818 clips Emotion Recognition URMP 2018 Audio, Video, MIDI 44 performances Audio-Visual Analysis MAESTRO 2018 MIDI, Audio 200 hours Music Generation, Piano Transcription Groove Dataset 2019 MIDI, Audio 13.6 hours Rhythm Generation GiantMIDI-Piano 2020 MIDI 10,855 songs Music Transcription, Analysis LakhNES 2019 MIDI 775,000 multiinstrument examples Music Generation Slakh2100 2019 MIDI, Audio 2100 tracks Source Separation MG-VAE 2020 MIDI 2000 songs Style Transfer Groove2Groove 2020 Audio thousands of clips Style Transfer Hi-Fi Singer 2021 Audio 11 hours Singing Voice Synthesis MIDI-DDSP 2022 MIDI, Audio varied Music Generation, Synthesis Singing Voice Conversion 2023 Audio subset of NHSS Voice Conversion| Dataset Name | Year | Type | Scale | Main Application Areas | | :---: | :---: | :---: | :---: | :---: | | CAL500 | 2007 | Audio | 500 songs | Emotion Recognition | | MagnaTagATune | 2008 | Audio | 25,863 clips | Music Annotation, Emotion Recognition | | Nottingham Music Dataset | 2009 | MIDI | 1000 tunes | Symbolic Music Analysis | | Million Song Dataset | 2011 | Audio | 1,000,000 songs | Music Information Retrieval | | MediaEval Emotion in Music | 2013 | Audio | 1000 songs | Emotion Recognition | | AMG1608 | 2015 | Audio | 1608 clips | Emotion Recognition | | VCTK Corpus | 2016 | Audio | 110 speakers | Speech Recognition, TTS | | Lakh MIDI | 2017 | MIDI | 176,581 files | Music Information Retrieval | | NSynth | 2017 | Audio | 300,000 samples | Music Synthesis | | DEAM | 2017 | Audio | 1802 songs | Emotion Recognition | | LJSpeech | 2017 | Audio | 13,100 clips | Speech Synthesis | | Free Music Archive (FMA) | 2017 | Audio | 106,574 songs | Music Classification | | AudioSet | 2017 | Audio | 2,000,000 clips | Audio Event Detection | | CH818 | 2017 | Audio | 818 clips | Emotion Recognition | | URMP | 2018 | Audio, Video, MIDI | 44 performances | Audio-Visual Analysis | | MAESTRO | 2018 | MIDI, Audio | 200 hours | Music Generation, Piano Transcription | | Groove Dataset | 2019 | MIDI, Audio | 13.6 hours | Rhythm Generation | | GiantMIDI-Piano | 2020 | MIDI | 10,855 songs | Music Transcription, Analysis | | LakhNES | 2019 | MIDI | 775,000 multiinstrument examples | Music Generation | | Slakh2100 | 2019 | MIDI, Audio | 2100 tracks | Source Separation | | MG-VAE | 2020 | MIDI | 2000 songs | Style Transfer | | Groove2Groove | 2020 | Audio | thousands of clips | Style Transfer | | Hi-Fi Singer | 2021 | Audio | 11 hours | Singing Voice Synthesis | | MIDI-DDSP | 2022 | MIDI, Audio | varied | Music Generation, Synthesis | | Singing Voice Conversion | 2023 | Audio | subset of NHSS | Voice Conversion |

表 3:音乐数据集及其在人工智能研究中的应用概述

  音乐生成。

  • 领域特定数据集:随着人工智能音乐生成技术在不同应用场景中的普及,开发针对特定音乐风格或应用的数据集变得越来越重要。例如,专注于治疗音乐或游戏音乐的数据集将有助于推动这些领域中特定任务的研究。DAMP Dataset(Smule 2018)专注于移动设备的录音,为开发领域特定的音乐生成模型提供了基础。

  • 开放数据集:鼓励更多音乐版权持有者和研究机构发布高质量的数据集,对于推动 AI 音乐生成的创新和发展至关重要。开放数据集不仅增加了数据可用性,还促进了研究人员之间的合作,加速了技术进步。像 Common Voice(Ardila 等,2019 年)和 Freesound(Fonseca 等,2017 年)这样的项目显著推动了


    通过开放数据政策进行语音和声音识别的研究。在音乐领域采取类似的方法无疑会带来更具创新性的成果。

通过在这些领域取得进展,人工智能音乐生成领域将获得更丰富和更具代表性的数据资源,从而推动音乐生成技术的持续改进。这些数据集不仅将支持更高效和创新的模型开发,还将为人工智能在音乐创作中的实际应用开辟新的可能性。

  评估方法


评估人工智能生成音乐的质量一直是研究者关注的焦点。自计算机生成音乐的早期阶段以来,评估这些作品的质量一直是一个关键问题。以下是不同阶段的重要研究成果。


6.1 评价方法概述

在主观评估方面,早期研究在很大程度上依赖于人类专家的听觉判断,这一传统可以追溯到 1970 年代到 1990 年代。例如,(Loy and Abbott 1985)通过听力测试评估了计算机生成的音乐片段。到 2000 年代,主观评估方法变得更加系统化。(Cuthbert and Ariza 2010)提出了一种基于调查的评估框架,以研究 AI 生成音乐的情感和审美价值。随着深度学习技术的发展,主观评估的复杂性进一步增加。(Papadopoulos, Roy, and Pachet 2016)和(Yang, Chou, and Yang 2017)引入了多维情感评分系统和结合用户体验的评估模型,标志着主观评估研究的一个里程碑。最近,(Agarwal and Om 2021)提出了一种基于情感识别的多层次评估框架,而(Chu et al. 2022)开发了一种用户满意度测量工具,能够更准确地捕捉复杂的情感反应和文化相关性,使得主观评估方法更加系统和详细。

客观评估可以追溯到 1980 年代,当时计算机生成音乐的质量主要通过音频分析和音乐理论的结合进行评估。Cope (Cope 1996) 开创了使用音乐理论规则进行结构评估的先河。随后,Huron (Huron 2008) 引入了一种基于统计分析的模型,用于评估音乐的复杂性和创新性,量化音乐的结构和和声特征,从而为客观评估提供了重要工具。随着机器学习的出现,Conklin (Conklin 2003) 和 Briot 等人 (Briot, Hadjeres, and Pachet 2017) 开发了更为复杂的客观评估系统,利用概率模型和深度学习技术来分析音乐创新和情感表达。


6.2 原创性和情感表达的评估

原创性的评估在 1990 年代成为一个重要的研究方向。(Miranda 1995) 和 (Toiviainen and Eerola 2006) 通过遗传算法和计算模型引入了早期的原创性评分机制。随着人工智能技术的发展,研究人员如 (Herremans, Chuan, and Chew 2017) 结合了马尔可夫链和风格迁移技术,进一步增强了原创性的系统性和多样性评估。情感表达的评估始于音频信号处理。(Sloboda 1991) 和 (Picard 2000) 为通过分析音高、节奏和生理信号来评估音乐中的情感表达奠定了基础。随着多模态分析的兴起, (Kim et al. 2010) 和 (Yang and Chen 2012) 开发了结合音频和视觉信号的情感分析模型,显著提高了情感表达评估的准确性和多样性。


6.3 评估框架的实施策略

评估框架的实施策略已经从简单演变为复杂。定性和定量分析的结合使用最早由 Reimer(Reimer 1991)在音乐教育领域提出,并且


后来广泛应用于对 AI 生成音乐的评估。现代评估框架,如 Lim 等人(2017 年)提出的框架,将统计分析与用户反馈相结合,为 AI 生成音乐的全面评估提供了新方法。多维评分系统起源于电影和视频内容的自动评分,Hastie 等人(2009 年)为音乐评估中的多维评分模型奠定了基础。Herremans、Chew 等人(2016 年)进一步将这一概念扩展到音乐创作质量的评估。跨学科合作和定制评估工具在最近的 AI 音乐评估中变得越来越重要。Gabrielsson(2001 年)的研究强调了在开发针对不同风格和文化的评估工具时跨学科合作的重要性。最后,自动评估和实时反馈作为现代音乐评估的关键方向,通过机器学习和实时分析技术显著提高了音乐生成质量评估的效率和准确性。

  6.4 结论


通过整合主观和客观评价方法,并考虑原创性和情感表现,可以构建一个综合质量评价框架。早期的研究为当前的评价方法奠定了基础,最近的进展,尤其是在评估原创性和情感表达方面,取得了显著成功。这种综合评价方法有助于更准确地衡量人工智能音乐生成系统的性能,并为未来的研究和开发提供指导,推动人工智能音乐生成技术朝着人类音乐创作的复杂性和丰富性发展。

  应用领域


AI 音乐生成技术具有广泛而多样的应用,从医疗保健到创意产业,逐渐渗透到各个领域并展现出巨大的潜力。根据其发展历史,以下是对各个应用领域和相关研究历史的详细描述。

  7.1 医疗保健


人工智能音乐生成技术在医疗保健领域得到了广泛关注,特别是在情绪调节和康复治疗方面。在 1990 年代,音乐疗法被广泛用于缓解压力和焦虑。(Standley 1986)研究了音乐对焦虑症状的影响,并强调了音乐作为一种非药物治疗方法的潜力。虽然当时主要关注自然音乐,但(Sacks 2008)在他的著作《音乐病症》中进一步探讨了音乐对神经系统的影响,间接指出了定制音乐在神经康复中的潜力。随着人工智能技术的进步,生成的音乐开始应用于特定的治疗场景。(Aalbers et al. 2017)展示了音乐疗法对情绪调节的积极影响,并提出通过 AI 生成的音乐进行个性化治疗。

  7.2 内容创作

内容创作是 AI 音乐生成技术应用最早的领域之一,经历了从实验性使用到主流创作工具的演变。在 1990 年代,David Cope 的《音乐智能实验》(Experiments in Musical Intelligence,EMI)(1996)是使用 AI 生成音乐进行内容创作的早期尝试。EMI 能够模拟各种作曲风格,其生成的音乐被用于实验作品。尽管该技术仍然相对基础,但这项开创性的研究为未来的应用奠定了基础。在 2000 年代,AI 生成的音乐开始广泛应用于电影和广告等创意产业。诸如 Jukedeck 等初创公司开发了使用生成对抗网络(GANs)和递归神经网络(RNNs)的音乐生成平台,为短视频和广告创作定制背景音乐。Briot 等人发现,AI 生成的音乐在质量和复杂性上已接近人类创作的音乐,凸显了 AI 提高内容创作效率的潜力(Briot, Hadjeres, and Pachet 2020)。最近,AI 音乐生成技术在内容创作中的应用变得更加广泛。 OpenAI 的 MuseNet(Payne 2019)和 Google 的 Magenta 项目(Magenta Team 2023)展示了生成复杂多风格音乐的能力,为电影、游戏和广告提供了高度符合背景的背景音乐。

  7.3 教育


AI 音乐生成技术彻底改变了音乐教育,成为理解音乐理论和实际作曲的重要工具。在 21 世纪初,AI 开始在音乐教育中应用。Pachet 探讨了自动作曲软件在教育中的潜力,生成简单的练习来帮助学生理解音乐结构和和声(Pachet 2003)。这些早期系统旨在辅助而不是取代传统教学方法。随着技术的进步,AI 音乐生成系统变得更加智能和互动。像 MusEDLab 的 AI Duet 和 Soundtrap 的 AI Music Tutor(MusedLab Team 2023)这样的平台提供互动教育体验,听取用户的演奏,解释输入,并提供即时反馈或实时表演,以帮助提高技能和理解音乐细微差别。


7.4 社交媒体与个性化内容


AI 生成的音乐显著丰富了社交媒体和个性化内容中的用户体验,个性化推荐和自动化内容生成成为关键趋势。在 2000 年代,社交平台如 MySpace 首次引入简单的音乐生成算法,为用户资料创建背景音乐。尽管在技术上比较基础,这些早期尝试为个性化内容生成奠定了基础。随着社交媒体平台的多样化,个性化内容生成成为主流。音乐流媒体平台如 Spotify 和 Pandora 通过分析用户听歌历史和偏好,使用 AI 生成个性化播放列表,提供高度定制的音乐体验。AI 生成的音乐还被用于短视频平台,以增强内容吸引力。最近,AI 生成的音乐已成为社交媒体的重要组成部分,平台如 TikTok 使用 AI 来


生成快速匹配视频内容的背景音乐,显著提升用户体验。AI 生成音乐的个性化能力大大增强了用户在社交媒体上的参与度和互动性(Singh 2024)。此外,它在虚拟现实(VR)和增强现实(AR)中的应用提升了沉浸式体验,为用户提供了新颖的感官享受。


7.5 游戏和互动娱乐


在游戏和互动娱乐中,AI 音乐生成技术不仅提高了音乐创作效率,还增强了玩家的沉浸感。游戏开发者在 1990 年代开始探索算法背景音乐生成。例如,《模拟人生》系列使用了程序化音乐生成,根据玩家的动作和情感状态动态调整背景音乐,为后来的游戏音乐生成奠定了基础。随着游戏变得更加复杂,AI 音乐生成在游戏中找到了更广泛的应用。程序音频的概念被引入到游戏中,Björk 等人探讨了互动环境中的音乐生成(Bjork and Holopainen 2005)。到 2010 年代,AI 技术已经发展到能够实时适应游戏环境和玩家互动的动态音乐生成,特别是在开放世界和大型多人在线游戏(MMORPG)中。最近的研究,如 Foley 等人(2023)的研究,强调了 AI 生成音乐在根据玩家行为和情感动态创建适当背景音乐方面的作用,增强了玩家的沉浸感和互动性。 AI 生成的音乐和音效不仅提升了游戏体验,还减少了开发时间和成本(Beatoven Team 2023)。


7.6 创意艺术和文化产业


AI 生成的音乐在创意艺术和文化产业中展现了独特的潜力,推动了艺术创作的边界。泽纳基斯将算法与音乐创作相结合(泽纳基斯 1992),开启了计算机辅助创作的新时代,为 AI 在艺术中的应用提供了理论基础和实践经验。布里奥等人讨论了 AI 在生成复杂音乐形式中的潜力(布里奥,哈杰雷斯和帕舍 2020),应用于现代艺术和实验音乐创作,展示了 AI 生成音乐在创意艺术中的广泛应用。最近,AI 生成的音乐在创意艺术中达到了新的高度。现代艺术家使用 AI 技术制作实验音乐,打破了音乐创作的传统界限。AI 生成的音乐也应用于舞蹈编排和戏剧配乐,增强了表演艺术的表现力。在 NFT(不可替代代币)艺术作品中,AI 生成的音乐是创建和销售过程的一部分,推动了新的数字艺术形式。


7.7 广播和流媒体


AI 生成音乐在广播和流媒体服务中的应用正在扩大,显著增强了内容的丰富性和个性化。早期的流媒体平台如 Pandora 和Last.fm使用简单的算法根据用户的听歌历史生成推荐播放列表,为后来的流媒体 AI 生成音乐奠定了基础。到 2010 年代,像 Spotify 这样的流媒体服务开始使用深度学习和机器学习技术。


技术生成个性化音乐推荐。Spotify 的 Discover Weekly 功能就是一个典型例子,它结合了 AI 生成的音乐和推荐系统,提供高度定制的音乐体验。最近,AI 生成音乐在广播和流媒体中的应用变得更加复杂和多样化。例如,AI 生成的背景音乐被用于新闻广播和播客中,增强了内容的情感表达。流媒体平台还使用 AI 生成的音乐来创建无缝的播放列表,针对不同的用户场景,如健身、放松或工作环境。AI 生成的新音乐风格和实验音乐为用户提供了前所未有的听觉体验。


7.8 营销与品牌建设


AI 生成的音乐在营销和品牌建设中具有独特的应用,通过定制音乐增强品牌影响力。在早期的品牌营销中,背景音乐通常由人类策划者选择,但随着 AI 技术的发展,公司开始探索 AI 生成的音乐以增强广告效果。最初的应用集中在为广告生成背景音乐,以提高品牌吸引力。到 2010 年代,AI 生成的音乐在广告中变得更加普遍。像 Amper Music 这样的初创公司开发了 AI 音乐生成平台,帮助公司生成与其品牌身份相符的音乐,增强与受众的情感联系。最近,AI 生成的音乐在品牌建设中的应用加深了。品牌可以使用 AI 生成的音乐创建独特的音频标识,增强品牌识别度。AI 生成的音乐也广泛用于跨媒体营销活动,与视频、图像和文本内容无缝整合,为讲述品牌故事提供了新的方式。 此外,AI 生成的音乐被用于互动广告中,以创建与消费者互动的实时背景音乐,进一步加强品牌与消费者之间的联系。

AI 音乐生成技术在多个领域展现了显著的价值。从医疗保健到内容创作,从教育到社交媒体,AI 不仅提高了音乐生成的效率,还大大拓宽了音乐应用的范围。随着技术的不断进步,AI 音乐生成在更多领域将扮演越来越重要的角色,推动音乐创作和应用的全面创新。这些应用展示了 AI 在音乐生成中的创新潜力,并突显了其在改善人类生活质量、提升创作效率和促进文化创新方面的重要性。


挑战与未来方向


尽管在人工智能音乐生成技术方面取得了显著进展,但仍然存在许多挑战,为未来的探索提供了丰富的途径。目前的技术瓶颈主要集中在以下关键问题上:

首先,生成音乐的多样性和原创性仍然是研究人员关注的主要问题。早期的生成系统,例如大卫·科普的音乐智能实验(EMI)(计算机历史博物馆 2023),成功地模仿了现有的风格,但往往产生风格上相似且缺乏创新的音乐。

这种多样性的限制在后来的深度学习模型中依然存在。尽管生成对抗网络(GANs)和递归神经网络(RNNs)的引入改善了多样性,但结果仍然常常遭受“模式崩溃”的问题——生成的样本在风格上过于相似,缺乏真正的原创性。Briot 等人对此现象进行了广泛讨论,强调了深度学习模型在音乐创作中的潜在局限性(Briot, Hadjeres, and Pachet 2020)。

其次,有效捕捉音乐中的长期依赖关系和复杂结构是 AI 音乐生成中的一个关键挑战(Briot, Hadjeres, 和 Pachet 2020)。作为一种基于时间的艺术形式,音乐的结构和情感表达往往依赖于复杂的时间跨度和层次(Hawthorne et al. 2018)。目前的 AI 模型在处理这种复杂性方面存在困难,尽管一些研究试图通过增加模型层数或引入新架构(如 Transformer 模型)来解决这个问题,但结果显示模型仍然难以生成具有深层结构一致性和长期依赖性的音乐。核心问题在于如何使模型在音乐生成过程中维持整体的宏观一致性,同时在微观层面展示丰富的细节和多样性。

评估方法的标准化在评估 AI 生成音乐的质量方面一直是一项持续的挑战。传统的评估方法主要依赖于人类听众的主观评估,但这些方法往往缺乏一致性和客观性(Yang and Chen 2012)。随着 AI 生成音乐应用的扩展,对更客观和一致的评估标准的需求也在增加。研究人员已开始探索基于统计分析和音乐理论的定量评估方法(Herremans, Chew et al. 2016),然而,如何有效地将这些方法与主观评估相结合仍然是一个需要进一步探索的领域(Engel et al. 2017)。完善此类评估系统对推进 AI 音乐生成技术的实际应用至关重要。

面对这些挑战,未来的研究方向可以集中在以下几个领域:

探索新的音乐表达和生成方法:引入更灵活和多样的音乐表达形式可以帮助生成模型更好地捕捉音乐的复杂性和多样性。在这一领域的研究可以借鉴最近在认知科学和音乐理论中的发现,以开发更好地反映人类创作过程的生成机制。

增强混合模型的控制能力:通过融入更多的上下文信息(如情感标签或风格标记),AI 生成的音乐在个性化和多样性方面可以取得更大进展。混合模型的控制能力直接影响生成音乐的表现力和用户体验,使其成为未来研究的重要方向。

应用跨学科方法:结合音乐理论、认知科学和深度学习将是推动人工智能音乐生成的关键。这种方法可以增强生成模型捕捉的能力。


复杂的音乐结构,使得 AI 生成的音乐更符合人类的美学和情感需求。跨学科的合作可以促进更智能和以人为本的音乐生成系统的发展。

实时生成与互动:音乐的实时生成和调整将为音乐创作和表演带来前所未有的灵活性和创作空间。特别是在互动娱乐和现场表演中,实时生成技术将显著提升用户体验和艺术表现力。

通过在这些方向进行深入研究,AI 音乐生成技术有望克服现有的局限性,实现更高水平的结构连贯性、表现力和多样性,从而为音乐创作和应用开辟新的可能性。这不仅将推动音乐创作的智能演进,还将深刻影响人类音乐文化的发展。

  结论


本文对人工智能音乐生成领域的关键技术、模型、数据集、评估方法和应用场景进行了全面回顾,基于最新的研究成果提供了一系列总结和未来方向。通过回顾和分析现有研究,本文提出了一种新的总结框架,系统地对不同技术方法进行分类和比较,包括符号生成、音频生成和混合模型,从而为研究人员提供了该领域的清晰概述。通过广泛的研究和分析,本文涵盖了多模态数据集和情感表达评估等新兴主题,并揭示了人工智能音乐生成在医疗、教育和娱乐等多个应用领域的潜在影响。

然而,尽管在评估方法的多样性、原创性和标准化方面取得了显著进展,人工智能音乐生成技术仍面临许多挑战。特别是捕捉复杂的音乐结构、处理长期依赖关系以及确保生成音乐的创新性仍然是迫切问题。未来的研究应更多关注数据集的多样性和质量,探索新的生成方法,并促进跨学科合作,以克服该技术当前的局限性。

总体而言,本文通过系统性总结和分析,为人工智能音乐生成领域提供了一个全面的知识框架,为未来的研究方向和重点提供了有价值的参考。这不仅有助于推进人工智能音乐生成技术的发展,还为音乐创作的智能和多样化发展奠定了基础。随着技术的不断演进,人工智能在音乐领域的应用前景将变得更加广泛。未来的研究者可以在此基础上进一步拓展该领域,为音乐生成带来更多的创新和突破。

  参考文献


Aalbers, S.; Fusar-Poli, L.; Freeman, R. E.; Spreen, M.; Ket, J. C.; Vink, A. C.; Maratos, A.; Crawford, M.; Chen, X.-J.; 和 Gold, C. 2017. 音乐疗法治疗抑郁症. Cochrane 系统评价数据库, 1(11).


Agarwal, G.; 和 Om, H. 2021. 一种高效的监督框架,用于基于自编码器优化的支持向量回归模型进行音乐情绪识别。 IET 信号处理, 15(2): 98-121.

阿戈斯丁内利,A.;登克,T. I.;博尔索斯,Z.;恩戈尔,J.;维尔泽蒂,M.;凯永,A.;黄,Q.;詹森,A.;罗伯茨,A.;塔利亚萨基,M.;等。2023。Musiclm:从文本生成音乐。arXiv 预印本 arXiv:2301.11325。


Aljanaki, A.; Yang, Y.-H.; 和 Soleymani, M. 2017. 为音乐的情感分析开发基准。PloS one, 12(3): e0173392。


Ardila, R.; Branson, M.; Davis, K.; Henretty, M.; Kohler, M.; Meyer, J.; Morais, R.; Saunders, L.; Tyers, F. M.; 和 Weber, G. 2019. Common voice: A massively-multilingual speech corpus. arXiv 预印本 arXiv:1912.06670.


Beatoven 团队。2023 年。为游戏生成的 AI 音乐:游戏开发者应该考虑什么。https://www.beatoven.ai/blog/ai-generated-music-for-games-what-game-developers-should-consider/。本博客讨论了游戏开发者在使用 AI 生成音乐时应考虑的因素,包括对玩家体验的影响、对动态适应性的需求,以及游戏原声带中 AI 与人类创意之间的平衡。


Bertin-Mahieux, T.; Ellis, D. P.; Whitman, B.; 和 Lamere, P. 2011. 百万歌曲数据集。没有期刊信息可用。


比约克,S.;和霍洛派宁,J. 2005 年。游戏设计中的模式,第 11 卷。查尔斯河媒体亨厄姆。


Boulanger-Lewandowski, N.; Bengio, Y.; 和 Vincent, P. 2012. 在高维序列中建模时间依赖性:应用于多音音乐生成和转录。arXiv 预印本 arXiv:1206.6392.


Briot, J.-P.; Hadjeres, G.; 和 Pachet, F.-D. 2017. 音乐生成的深度学习技术-综述。arXiv 预印本 arXiv:1709.01620。


Briot, J.-P.; Hadjeres, G.; 和 Pachet, F.-D. 2020. 音乐生成的深度学习技术,第 1 卷。施普林格。


Brunner, G.; Konrad, A.; Wang, Y.; 和 Wattenhofer, R. 2018. MIDI-VAE: 建模音乐的动态和乐器,应用于风格迁移。arXiv:1809.07600。

Chen, J.; Tan, X.; Luan, J.; Qin, T.; 和 Liu, T.-Y. 2020a. Hifisinger: 朝着高保真神经歌声合成迈进。arXiv 预印本 arXiv:2009.01776。

Chen, N.; Zhang, Y.; Zen, H.; Weiss, R. J.; Norouzi, M.; and Chan, W. 2020b. Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713.

Christophe Veaux, K. M., Junichi Yamagishi. 2017. CSTR VCTK Corpus: 英语多说话者语料库,用于 CSTR 语音克隆工具包。数据集可从爱丁堡大学语音技术研究中心(CSTR)获取。可用日期:2017-04-04。


Chu, H.; Kim, J.; Kim, S.; Lim, H.; Lee, H.; Jin, S.; Lee, J.; Kim, T.; 和 Ko, S. 2022. 一项关于人们如何感知 AI 生成音乐的实证研究。发表于第 31 届 ACM 国际信息与知识管理会议论文集,304-314。


Cífka, O.; Şimşekli, U.; 和 Richard, G. 2020. Groove2groove: 一次性音乐风格迁移,利用合成数据进行监督。IEEE/ACM 音频、语音和语言处理交易,28: 2638-2650。


计算机历史博物馆。2023 年。算法音乐:大卫·科普与 EMI。https://computerhistory.org/blog/ algorithmic-music-david-cope-and-emi/。本文探讨了大卫·科普及其音乐智能实验(EMI)的工作,详细介绍了科普如何开发算法以模仿著名作曲家的风格创作音乐,融合了创造力与技术,并引发了关于人工智能在艺术中角色的辩论。


Conklin, D. 2003. 基于统计模型的音乐生成。在 2003 年 AISB 人工智能与艺术与科学创造力研讨会论文集中,30-35。Citeseer。


Cope, D. 1996. 音乐智能实验,第 12 卷。AR 版,麦迪逊,威斯康星州。


Copet, J.; Kreuk, F.; Gat, I.; Remez, T.; Kant, D.; Synnaeve, G.; Adi, Y.; 和 Défossez, A. 2024. 简单且可控的音乐生成. arXiv:2306.05284.


Cross, I. 2023. 数字时代的音乐:商品、社区、共融。AI & Society, 38: 2387-2400. 收稿日期:2022 年 10 月 10 日;接受日期:2023 年 4 月 11 日;出版日期:2023 年 4 月 28 日;发行日期:2023 年 12 月。


Cuthbert, M. S.;和 Ariza, C. 2010。music21:一个用于计算机辅助音乐学和符号音乐数据的工具包。没有期刊信息可用。


丹尼尔森,A. 2018 年。《数字时代的音乐、媒体与技术创意》。无出版信息。


Dash, A.; 和 Agres, K. 2023. 基于人工智能的情感音乐生成系统:方法与挑战的综述。ACM 计算机调查。


Defferrard, M.; Benzi, K.; Vandergheynst, P.; 和 Bresson, X. 2017. FMA: 一种用于音乐分析的数据集。arXiv:1612.01840。


D’Errico, M. A. 2016. 界面美学:声音、软件与数字音频制作的生态。博士论文,加利福尼亚大学洛杉矶分校,洛杉矶。


Deruty, E.; Grachten, M.; Lattner, S.; Nistal, J.; 和 Aouameur, C. 2022. 关于当代流行音乐制作的人工智能技术的发展与实践. 国际音乐信息检索学会会刊, 5(1): 35-50.

Dhariwal, P.; Jun, H.; Payne, C.; Kim, J. W.; Radford, A.; 和 Sutskever, I. 2020. Jukebox: 一种音乐生成模型. arXiv 预印本.


Donahue, C.; Mao, H. H.; Li, Y. E.; Cottrell, G. W.; 和 McAuley, J. 2019. LakhNES: 通过跨域预训练改善多乐器音乐生成. arXiv 预印本 arXiv:1907.04868.


Donahue, C.; McAuley, J.; 和 Puckette, M. 2019. 对抗音频合成. arXiv:1802.04208.


董华伟;萧维扬;杨立诚;杨曜辉。2018 年。Musegan:用于符号音乐生成和伴奏的多轨序列生成对抗网络。在人工智能 AAAI 会议论文集,第 32 卷。


Engel, J.; Hantrakul, L.; Gu, C.; 和 Roberts, A. 2020. DDSP: 可微分数字信号处理. arXiv 预印本 arXiv:2001.04643.


Engel, J.; Resnick, C.; Roberts, A.; Dieleman, S.; Norouzi, M.; Eck, D.; 和 Simonyan, K. 2017. 使用 wavenet 自编码器进行音乐音符的神经音频合成. 在国际机器学习会议, 1068-1077. PMLR.


Fonseca, E.; Pons Puig, J.; Favory, X.; Font Corbera, F.; Bogdanov, D.; Ferraro, A.; Oramas, S.; Porter, A.; 和 Serra, X. 2017. Freesound 数据集:一个创建开放音频数据集的平台。在 Hи X, Cunningham SJ, Turnbull D, Duan Z, 编辑。第 18 届 ISMIR 会议论文集;2017 年 10 月 23-27 日;中国苏州。[加拿大]:国际音乐信息检索学会;2017 年。第 486-93 页。国际音乐信息检索学会 (ISMIR)。


福特,C.; 诺埃尔-赫斯特,A.; 卡迪纳尔,S.; 洛思,J.; 萨门托,P.; 威尔逊,E.; 其他; 和布莱恩-金斯,N. 2024. 基于人工智能的音乐创作中的反思。无期刊信息可用。


Forsgren, S.; 和 Martiros, H. 2022. Riffusion - 实时音乐生成的稳定扩散。无期刊信息可用。


Gabrielsson, A. 2001. 感知的情感与感受到的情感:相同还是不同?Musicae scientiae, 5(1_suppl): 123-147.


Gemmeke, J. F.; Ellis, D. P.; Freedman, D.; Jansen, A.; Lawrence, W.; Moore, R. C.; Plakal, M.; 和 Ritter, M. 2017. 音频集:用于音频事件的本体和人工标注数据集。在 2017 年 IEEE 国际声学、语音和信号处理会议(ICASSP),776-780. IEEE.


Gillick, J.; Roberts, A.; Engel, J.; Eck, D.; 和 Bamman, D. 2019. 通过逆序列变换学习节奏。在国际机器学习会议,2269-2279。PMLR。


Goodfellow, I. 2016. 深度学习, 第 196 卷. MIT 出版社.


Goodfellow, I.; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; 和 Bengio, Y. 2014. 生成对抗网络. 神经信息处理系统进展, 27.

Goswami, A. 2023. 音乐与人工智能:探索创造力与技术的交汇点。Sangeet Galaxy, 12(2).


Hadjeres, G.; Pachet, F.; 和 Nielsen, F. 2017a. DeepBach: 一种可调节的巴赫合唱曲生成模型。在 Precup, D.; 和 Teh, Y. W. 主编,《第 34 届国际机器学习大会论文集》,机器学习研究通讯第 70 卷,1362-1371。PMLR。


Hadjeres, G.; Pachet, F.; 和 Nielsen, F. 2017b. Deepbach: 一个可控的巴赫合唱曲生成模型. 在国际机器学习大会,1362-1371. PMLR. Hastie, T.; Tibshirani, R.; Friedman, J. H.; 和 Friedman, J. H. 2009. 统计学习的元素:数据挖掘、推断和预测,第 2 卷. Springer.


霍索恩,C.;斯塔西尤克,A.;罗伯茨,A.;西蒙,I.;黄,C.-Z. A.;迪尔曼,S.;埃尔森,E.;恩格尔,J.;和埃克,D. 2018。利用 MAESTRO 数据集实现分解钢琴音乐建模与生成。arXiv 预印本 arXiv:1810.12247。


Hernandez-Olivan, C.;和 Beltran, J. R. 2022. 深度学习音乐创作:综述。在《语音与音乐技术进展:计算方面及应用》,25-50 页。没有出版信息。


Herremans, D.; Chew, E.; 等. 2016. 张力带:定量和可视化音调张力。暂无期刊信息。


Herremans, D.; Chuan, C.-H.; 和 Chew, E. 2017. 音乐生成系统的功能分类法。ACM 计算机调查(CSUR),50(5): 1-30。


希勒,L. A.;和艾萨克森,L. M. 1979。实验音乐;与电子计算机的作曲。格林伍德出版社。


Ho, J.; Jain, A.; 和 Abbeel, P. 2020. 去噪扩散概率模型。神经信息处理系统进展,33: 6840-6851。


福尔摩斯, T. 2012. 电子与实验音乐:技术、音乐与文化. 纽约: Routledge, 第四版. ISBN 9780203128428.


霍宁,S. S. 2013。《追逐声音:从爱迪生到 L P L P LPL P 的技术、文化与录音艺术》。巴尔的摩:约翰霍普金斯大学出版社。ISBN 9781421410234。

Hracs, B. J.; Seman, M.; 和 Virani, T. E., 编. 2016. 《数字时代的音乐生产与消费》,第 5 卷. 纽约: Routledge.


胡,X.;和杨,Y.-H. 2017。跨数据集和跨文化音乐情感预测:以西方和中国流行歌曲为例。《IEEE 情感计算学报》,8(2):228-240。


黄,C.-Z. A.; 瓦斯瓦尼,A.; 乌斯克雷特,J.; 沙齐尔,N.; 西蒙,I.; 霍索恩,C.; 戴,A. M.; 霍夫曼,M. D.; 丁库莱斯库,M.; 和艾克,D. 2018a. 音乐变换器。arXiv 预印本 arXiv:1809.04281。


黄, C.-Z. A.; 瓦斯瓦尼, A.; 乌斯科雷特, J.; 沙泽尔, N.; 西蒙, I.; 霍桑, C.; 戴, A. M.; 霍夫曼, M. D.;

Dinculescu, M.; 和 Eck, D. 2018b. Music Transformer. arXiv:1809.04281.


黄, Q.; 朴, D. S.; 王, T.; 邓, T. I.; 李, A.; 陈, N.; 张, Z.; 张, Z.; 于, J.; 弗兰克, C.; 等. 2023a. Noise2music: 基于文本的扩散模型音乐生成. arXiv 预印本 arXiv:2302.03917.


黄,W.-C.; Violeta,L. P.; 刘,S.; 施,J.; 和 戈田,T. 2023b。2023 年歌唱声音转换挑战。在 2023 年 IEEE 自动语音识别与理解研讨会(ASRU),1-8。IEEE。


黄, Y.-S.; 和杨, Y.-H. 2020. 流行音乐变换器:基于节拍的表现力流行钢琴作品建模与生成. 在第 28 届 ACM 国际多媒体会议论文集中, 1180-1188.


Huron, D. 2008. 甜美的期待:音乐与期望的心理学。麻省理工学院出版社。


伊藤,K.;和约翰逊,L. 2017. LJ 语音数据集。https: //keithito.com/LJ-Speech-Dataset/


Ji, S.; Yang, X.; 和 Luo, J. 2023. 关于符号音乐生成的深度学习调查:表示、算法、评估和挑战。ACM Computing Surveys, 56(1): 1-39.


Juslin, P. N.; 和 Sloboda, J. 2011. 音乐与情感手册:理论、研究、应用。牛津大学出版社。


Katz, M. 2010. 捕捉声音:技术如何改变音乐。加州大学出版社。


金, Y. E.; 施密特, E. M.; 米涅科, R.; 莫顿, B. G.; 理查森, P.; 斯科特, J.; 斯佩克, J. A.; 和 特恩布尔, D. 2010. 音乐情感识别:一项最新的综述. 在 Proc. ismir, 卷 86, 937-952.


Kong, Q.; Li, B.; Chen, J.; 和 Wang, Y. 2020a. Giantmidipiano: 一种用于古典钢琴音乐的大规模 midi 数据集。arXiv 预印本 arXiv:2010.07061。


Kong, Z.; Ping, W.; Huang, J.; Zhao, K.; 和 Catanzaro, B. 2020b. Diffwave: 一种多功能的音频合成扩散模型。arXiv 预印本 arXiv:2009.09761。


Kumar, K.; Kumar, R.; De Boissiere, T.; Gestin, L.; Teoh, W. Z.; Sotelo, J.; De Brebisson, A.; Bengio, Y.; 和 Courville, A. C. 2019. Melgan: 生成对抗网络用于条件波形合成. 神经信息处理系统进展, 32.


Law, E.; West, K.; Mandel, M. I.; Bay, M.; 和 Downie, J. S. 2009. 使用游戏评估算法:音乐标签的案例。在 ISMIR, 387-392. Citeseer.


Lei, W.; Wang, J.; Ma, F.; Huang, G.; 和 Liu, L. 2024. 关于人类视频生成的综合调查:挑战、方法和见解。arXiv 预印本 arXiv:2407.08428。


李,B.; 刘,X.; Dinesh,K.; 段,Z.; 和 Sharma,G. 2018。为多模态音乐分析创建多轨经典音乐表演数据集:挑战、见解和应用。IEEE 多媒体学报,21(2):522535。

Liang, F. 2016. Bachbot: Automatic Composition in the Style of Bach Chorales. 剑桥大学,8(3.1):19-48。


Loy, G.; 和 Abbott, C. 1985. 计算机音乐合成、表演和创作的编程语言。ACM 计算机调查(CSUR),17(2): 235-265。


Lu, C.; 和 Dubnov, S. 2021. ChordGAN: 使用色度特征提取的符号音乐风格迁移. 在第二届人工智能音乐创意会议(AIMC)论文集中,在线,18-22.


Lu, P.; Xu, X.; Kang, C.; Yu, B.; Xing, C.; Tan, X.; 和 Bian, J. 2023. Musecoco: 从文本生成符号音乐. arXiv 预印本 arXiv:2306.00110.


Luo, J.; Yang, X.; Ji, S.; 和 Li, J. 2020. MG-VAE: 具有特定区域风格的深度中国民歌生成. 在第七届声音与音乐技术会议(CSMT)修订选定论文集, 93-106. Springer.


Magenta 团队。2023 年。Magenta:探索机器学习在艺术和音乐创作中的应用。https://magenta.tensorflow. org/。Magenta 是一个研究项目,探索机器学习在艺术和音乐创作中的作用。该项目由 Google Brain 团队的研究人员和工程师发起,Magenta 专注于开发深度学习和强化学习算法,并构建工具以扩展艺术家的创作过程。


Manilow, E.; Wichern, G.; Seetharaman, P.; 和 Le Roux, J. 2019. 剪切音乐源分离一些 Slakh:一个研究训练数据质量和数量影响的数据集。在 2019 年 IEEE 信号处理在音频和声学应用研讨会(WASPAA),45-49。IEEE。


Marschall, O. A. 2007. 机器创作 - 在 Lisp 与 Max 之间:在人工智能与音乐之间。硕士论文,Lisp、Max、maxlisp 及其他重组。硕士论文。


Miranda, E. R. 1995. 一种人工智能方法用于声音设计。计算机音乐期刊, 19(2): 59-75.


Moysis, L.; Iliadis, L. A.; Sotiroudis, S. P.; Boursianis, A. D.; Papadopoulou, M. S.; Kokkinidis, K.-I. D.; Volos, C.; Sarigiannidis, P.; Nikolaidis, S.; 和 Goudos, S. K. 2023. 音乐深度学习:音乐信号处理的深度学习方法-最先进技术的综述。Ieee Access, 11: 17031-17052.


MusedLab 团队。2023 年。MusedLab:音乐体验设计实验室。https://musedlab.org/。MusedLab 致力于通过技术探索和创造与音乐互动的新方式,设计使音乐创作对所有人都可及的工具、乐器和体验。该实验室将音乐、教育和技术的研究相结合,开发音乐学习和互动的创新解决方案。


奥利弗,P. G.; 和拉尔切夫,S. 2022. 音乐产业的数字化转型:COVID-19 大流行如何加速了新的商业机会。在《重新思考音乐商业:音乐背景、权利、数据与 COVID-19》,55-72。施普林格。


Oord, A. v. d.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; 和

Kavukcuoglu, K. 2016. Wavenet: 一种用于原始音频的生成模型。arXiv 预印本 arXiv:1609.03499。


Pachet, F. 2003. 续曲:与风格的音乐互动。新音乐研究杂志,32(3):333-341。


Papadopoulos, A.; Roy, P.; 和 Pachet, F. 2016. 使用 flowcomposer 的辅助乐谱创作。在约束编程的原理与实践:第 22 届国际会议,CP 2016,法国图卢兹,2016 年 9 月 5 日至 9 日,会议录 22, 769-785. 施普林格.


佩恩,C. 2019。MuseNet。https://openai.com/blog/musenet。OpenAI,2019 年 4 月 25 日。


Penha, C.; 和 Cozman, F. G. 2015. AMG1608 数据集用于音乐情感识别。发表于 2015 年 IEEE 国际声学、语音与信号处理会议(ICASSP),717-721。澳大利亚布里斯班:IEEE。


皮卡德,R. W. 2000。情感计算。麻省理工学院出版社。


Pinch, T.; 和 Bijsterveld, K. 2012. 《牛津声音研究手册》。OUP USA。


Pinch, T.; 和 Trocco, F. 2004. Moog 合成器的发明与影响. 剑桥, 马萨诸塞州和伦敦, 英国: 哈佛大学出版社. ISBN 9780674042162.


Privato, N.; Rampado, O.; 和 Novello, A. 2022. 一种结合 LSTM 和马尔可夫链的音乐创作工具,应用于 Max/MSP。在国际计算智能音乐、声音、艺术与设计会议(EvoStar 的一部分),228-242 页。Cham: Springer International Publishing。


Qian, Y.; Wang, T.; Tong, X.; Jin, X.; Xu, D.; Zheng, B.; Ge, T.; Yu, F.; 和 Zhu, S.-C. 2024. MusicAOG: 一种基于能量的模型,用于学习和采样符号音乐的层次表示。arXiv 预印本 arXiv:2401.02678。


Radford, A.; Metz, L.; 和 Chintala, S. 2016. 使用深度卷积生成对抗网络的无监督表示学习. arXiv:1511.06434.


Raffel, C. 2016. 基于学习的方法用于比较序列,应用于音频到 MIDI 的对齐和匹配。哥伦比亚大学。


Rambarran, S. 2021. 虚拟音乐:数字时代的声音、音乐与图像。布卢姆斯伯里出版社 USA。


Reimer, B. 1991. 音乐教育的哲学。《美学与艺术批评杂志》,49(3)。


Reuter, A. 2022. 谁放出了 DAWs?数字在新一代数字音频工作站中的作用。《流行音乐与社会》,45(2): 113-128。


萨克斯,O. 2008。《音乐病症:音乐与大脑的故事》。Vintage。


Schneider, F.; Kamal, O.; Jin, Z.; 和 Schölkopf, B. 2024. Moûsai: 高效的文本到音乐扩散模型。收录于 Ku, L.-W.; Martins, A.; 和 Srikumar, V. 编辑,《计算语言学协会第 62 届年会会议录》(卷 1:长篇论文),8050-8068。泰国曼谷:计算语言学协会。

Shahriar, S. 2022. GAN 计算机生成艺术?关于使用生成对抗网络进行视觉艺术、音乐和文学文本生成的调查。Displays, 73: 102237。


Singh, P. 2024. 媒体 2.0:通过 AI 增强通信和内容的旅程。媒体与人工智能:导航,127。

斯洛博达,J. A. 1991。音乐结构与情感反应:一些实证发现。《音乐心理学》,19(2):110-120。


Smule. 2018. 移动表演数字档案 (DAMP). https://www.smule.com/songs. [在线; 访问日期:2018 年 3 月 15 日].


Soleymani, M.; Caro, M. N.; Schmidt, E. M.; Sha, C.-Y.; 和 Yang, Y.-H. 2013. 1000 首用于音乐情感分析的歌曲。在第二届 ACM 国际多媒体众包研讨会论文集中,1-6。


Standley, J. M. 1986. 医疗/牙科治疗中的音乐研究:元分析和临床应用。音乐治疗杂志, 23(2): 56-122.

Stefani, G. 1987. Melody: a popular perspective. Popular Music, 6(1): 21-35.

Stöter, F.-R.; Liutkus, A.; 和 Ito, N. 2018. 2018 年信号分离评估活动。在潜变量分析与信号分离:第 14 届国际会议,LVA/ICA 2018,英国吉尔福德,2018 年 7 月 2-5 日,会议录 14,293-305. 施普林格。


Tan, X.; 和 Li, X. 2021. 人工智能音乐创作教程。载于第 29 届 ACM 国际多媒体会议论文集,5678-5680。


Tanev, G.; 和 Božinovski, A. 2013. 音乐制作中的虚拟工作室技术。在国际信息与通信技术创新会议,231-241。海德堡:施普林格国际出版。


Tao, F. 2022. 艺术与技术的新融合:人工智能艺术的哲学解读。批判艺术, 36(1-2): 110-125.


泰勒, J.; 阿尔德利亚, V. E.; 和沃尔夫森, J. 2024. 人工智能在创意领域的探索:生成艺术、音乐和设计. 国际网络与 IT 服务管理杂志, 4(1): 39-45.


Théberge, P. 2021. 任何你能想象的声音:制作音乐/消费技术。韦斯利大学出版社。


Toiviainen, P.; 和 Eerola, T. 2006. 音步感应中的自相关:重音结构的作用。《美国声学学会期刊》,119(2): 1164-1170。


Topirceanu, A.; Barina, G.; 和 Udrescu, M. 2014. Musenet: 音乐艺术家行业的合作. 见 2014 欧洲网络智能会议, 89-94. IEEE.


Turnbull, D.; Barrington, L.; Torres, D.; 和 Lanckriet, G. 2007. 利用 cal500 数据集实现基于语义描述的音乐查询. 在第 30 届国际 ACM SIGIR 信息检索研究与发展年会上, 439-446.


van den Oord, A.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; 和

Kavukcuoglu, K. 2016. WaveNet: 一种用于原始音频的生成模型。arXiv:1609.03499。


Vaswani, A. 2017. 注意力即你所需的一切。arXiv 预印本 arXiv:1706.03762。


王, L.; 赵, Z.; 刘, H.; 庞, J.; 秦, Y.; 和 吴, Q. 2024. 智能音乐生成系统的综述. 神经计算与应用, 36(12): 6381-6401.


王, Y. 2017. 音乐制作中的虚拟声场设计与研究。《韩国计算机与信息学会期刊》,22(7): 83-91。


王, Y.; Skerry-Ryan, R.; Stanton, D.; Wu, Y.; Weiss, R. J.; Jaitly, N.; Yang, Z.; Xiao, Y.; Chen, Z.; Bengio, S.; 等. 2017. Tacotron: 一个完全端到端的文本到语音合成模型. arXiv 预印本 arXiv:1703.10135, 164.


王, Z.; 闵, L.; 和 夏, G. 2024. 使用级联扩散模型的整首歌曲符号音乐分层生成. arXiv 预印本 arXiv:2405.09901.


吴,Y.; 马尼洛,E.; 邓,Y.; 斯瓦维利,R.; 卡斯特纳,K.; 库伊曼斯,T.; 库尔维尔,A.; 黄,C.-Z. A.; 和恩格尔,J. 2021. MIDI-DDSP:通过层次建模对音乐表演的详细控制。arXiv 预印本 arXiv:2112.09312。


泽纳基斯,I. 1992。《形式化音乐:作曲中的思想与数学》。6. 彭德拉贡出版社。


杨, L.-C.; 周, S.-Y.; 和 杨, Y.-H. 2017. MidiNet: 一种用于符号领域音乐生成的卷积生成对抗网络. arXiv 预印本 arXiv:1703.10847.


杨,R.; 陈,T.; 张,Y.; 和夏,G. 2019。使用 VAE 检查和交互有意义的音乐表示。arXiv 预印本 arXiv:1904.08842。


杨, Y.-H.; 和陈, H. H. 2012. 音乐情感的机器识别:综述. ACM 智能系统与技术交易 (TIST), 3(3): 1-30.


扎克 III, A. J. 2001. 摇滚的诗学:剪辑曲目,制作唱片。加州大学出版社。


张, N.; 燕, J.; 和布里奥, J.-P. 2023. 人工智能技术在流行音乐创作中的应用:来自真实音乐制作的视角。暂无期刊信息。