近年来,人工智能(AI)在音乐生成领域取得了显著进展,推动了音乐创作和应用的创新。本文对 AI 音乐生成的最新研究进展进行了系统回顾,涵盖了关键技术、模型、数据集、评估方法及其在各个领域的实际应用。 本次评审的主要贡献包括:(1) 提供一个全面的总结框架,系统地分类和比较不同的技术方法,包括符号生成、音频生成和混合模型,帮助读者更好地理解该领域的技术全景;(2) 提供对现有文献的广泛调查,涵盖新兴主题,如多模态数据集和情感表达评估,为相关研究提供广泛的参考;(3) 对 AI 音乐生成在各种应用领域的实际影响进行详细分析,特别是在实时交互和跨学科应用方面,提供新的视角和见解;(4) 总结现有的音乐质量评估方法的挑战和局限,提出潜在的未来研究方向,旨在促进评估技术的标准化和更广泛的应用。通过这些创新的总结和分析,本文成为 AI 音乐生成领域研究人员和从业者的综合参考工具,同时也为该领域的未来发展指明方向。
介绍
音乐作为一种普遍而深刻的艺术形式,超越了文化和地域的界限,在情感表达中发挥着无与伦比的作用(Juslin and Sloboda 2011)。随着科技的快速发展,音乐创作已从 20 世纪初依赖模拟设备和录音带的手动操作,演变为今天完全数字化的制作环境(Katz 2010;Pinch and Bijsterveld 2012;Deruty et al. 2022;Oliver and Lalchev 2022)。在这一演变过程中,人工智能(AI)的引入为音乐创作注入了新的活力,推动了自动音乐生成技术的快速发展,并为创新带来了前所未有的机遇(Briot, Hadjeres, and Pachet 2020;Zhang, Yan, and Briot 2023)。
近年来,AI 音乐生成技术取得了显著进展,尤其是在模型架构和生成质量方面(Huang et al. 2018a; Agostinelli et al. 2023)。生成对抗网络(GANs)、Transformer 架构和最新的扩散模型的应用,为生成音乐的多样性、结构及表现力提供了强有力的支持(Goodfellow et al. 2014; Vaswani 2017; Ho, Jain, and Abbeel 2020; Kong et al. 2020b; Shahriar 2022)。此外,结合符号生成和音频生成优势的新型混合模型框架进一步增强了生成音乐的结构完整性和音色表现力(Huang et al. 2018a; Wang, Min, and Xia 2024; Qian et al. 2024)。这些进展不仅扩展了 AI 音乐生成的技术边界,也为音乐创作开辟了新的可能性(Wang et al. 2024)。
回顾符号音乐和音频音乐生成的最新研究进展,探索它们在各种应用场景中的潜力和挑战,并预测未来的发展方向。通过对现有技术和方法的全面分析,本文旨在为 AI 音乐生成领域的研究人员和从业者提供有价值的参考,并激发进一步的创新和探索。我们希望这项研究能够促进 AI 在音乐创作中的持续创新,使其成为未来音乐制作的核心工具。本文的核心逻辑如图 1 所示。
音乐制作的历史
音乐制作的早期阶段
在 20 世纪初,音乐制作主要依赖于模拟设备和录音带技术。音响工程师和制作人使用大型模拟调音台进行录音、混音和母带制作。这一时期强调现场表演的手艺和艺术性,录音技术和设备的限制使得捕捉每一个音符的过程充满了不确定性和随机性。(Zak III 2001; Horning 2013) 合成器的引入为音乐创作带来了革命性的变化,特别是在电子音乐方面。1970 年代,合成器变得越来越流行,像 Moog 和 Roland 这样的品牌象征着电子音乐的时代。合成器通过调制波形(例如正弦波和三角波)生成各种声音,使音乐制作人能够在单一乐器上创建广泛的音调和效果,从而极大地扩展了音乐表达的可能性。(Pinch and Trocco 2004; Holmes 2012)
随着技术的进步,人工智能(AI)逐渐进入音乐制作领域。AI 技术能够分析大量的音乐数据,提取模式和特征,并生成新的音乐作品。Max/MSP,一个早期的交互式音频编程环境,允许用户通过编码创建自己的音效和乐器,这标志着 AI 技术在音乐制作中的初步应用(Tan and Li 2021;Hernandez-Olivan and Beltran 2022;Ford et al. 2024;Marschall 2007;Privato, Rampado, and Novello 2022)。
随着人工智能技术的成熟,基于机器学习的工具应运而生,能够根据给定的数据集生成音乐,并自动化混音和母带处理等任务。现代人工智能音乐生成技术不仅可以模拟现有风格,还可以创造全新的音乐形式,为音乐创作开辟了新的可能性(Taylor, Ardeliya, and Wolfson 2024)。
乐谱是一种传统的音乐表现形式,通过五线谱和各种音乐符号记录音乐信息。它不仅包括音高和节奏,还包括力度、表现标记和其他演奏指示。在人工智能音乐生成中,乐谱表示法也被采用,特别是用于生成符合音乐理论的可读作曲。使用乐谱作为输入的模型,如 Music Transformer(Huang et al. 2018b),可以生成具有复杂结构和连贯性的作曲。
3.5 音频波形
音频波形直接表示音频信号的时域波形,适合生成和处理实际音频数据。尽管波形表示涉及大量数据和复杂处理,但它提供了最原始和详细的音频信息,这对于音频合成和声音设计至关重要。例如,WaveNet(van den Oord 等,2016)模型直接使用波形生成高度真实的语音和音乐。
音频信号的结构和时间特征。Tacotron 2(Wang et al. 2017)模型使用声谱图作为生成音频的中间表示,将文本输入转换为梅尔声谱图,然后使用 WaveNet 生成最终的波形音频。DDSP 模型(Engel et al. 2020)采用声谱图作为中间表示,通过操控频域信号生成高质量音频。它结合了传统数字信号处理(DSP)技术和深度学习模型,以生成逼真的乐器音色和复杂的音频效果,在音乐生成和声音设计方面表现出色。
3.7 和弦进行
和弦进行是表示时间变化的和弦序列,对于流行音乐、爵士乐和古典音乐至关重要。人工智能音乐生成系统可以学习和弦进行的模式,从而生成和谐且结构化的音乐。例如,ChordGAN 模型(Lu and Dubnov 2021)用于为流行音乐中的背景和声生成和弦进行。
3.8 音高轮廓
音高轮廓表示音高随时间的变化,特别有助于分析和生成旋律线。音高轮廓捕捉音乐中微妙的音高变化,有助于生成流畅自然的旋律。OpenAI 的 Jukebox 模型(Dhariwal et al. 2020)使用音高轮廓生成协调的旋律和伴奏的完整歌曲。
生成模型
AI 音乐生成领域可以分为两个主要方向:符号音乐生成和音频音乐生成。这两种方法对应于不同的音乐创作层次和形式。
4.1 符号音乐生成
符号音乐生成使用人工智能技术创建音乐的符号表示形式,例如 MIDI 文件、乐谱或钢琴卷。该方法的核心在于学习音乐的结构、和弦进行、旋律和节奏模式,以生成具有逻辑性和结构性的音乐作品。这些模型通常处理离散的音符数据,生成的结果可以直接播放或进一步转换为音频。在符号音乐生成中,LSTM 模型表现出强大的能力。例如,DeepBach(Hadjeres, Pachet, and Nielsen 2017a)使用 LSTM 生成巴赫风格的和声,根据给定的音乐片段生成和谐的和弦进行。然而,符号音乐生成面临着捕捉长期依赖关系和复杂结构的挑战,特别是在生成整个乐章或歌曲规模的音乐时,保持长期音乐依赖关系可能会很困难。
近期,基于 Transformer 的符号音乐生成模型在捕捉长期依赖关系方面展现了更高效的能力。例如,流行音乐 Transformer(Huang 和 Yang 2020)结合了自注意力机制和 Transformer 架构,在生成流行音乐方面取得了显著的进步。
盟友,MuseGAN,一个基于 GAN 的多轨符号音乐生成系统,可以生成适合创作丰富层次和复杂和声的多声部音乐。MuseCoco 模型(Lu et al. 2023)将自然语言处理与音乐创作相结合,从文本描述中生成符号音乐,并允许对音乐元素进行精确控制,使其成为创作复杂符号音乐作品的理想选择。然而,符号音乐生成主要集中在音符和结构上,对音色和表现力的控制有限,突显了其局限性。
WaveNet(van den Oord et al. 2016)是一种基于深度学习的生成模型,捕捉音频信号中的微妙变化以生成富有表现力的音乐音频,广泛用于语音合成和音乐生成。Jukebox(Dhariwal et al. 2020)由 OpenAI 开发,结合了 VQ-VAE 和自回归模型,能够生成带有歌词和复杂结构的完整歌曲,其音质和表现力接近真实录音。然而,音频音乐生成通常需要大量的计算资源,尤其是在处理大量音频数据时。此外,音频生成模型在长期控制音乐的结构和逻辑方面面临挑战。
最近关于扩散模型的研究取得了显著进展,最初用于图像生成,但现在已扩展到音频。例如,DiffWave(Kong et al. 2020b)和 WaveGrad(Chen et al. 2020b)是两个代表性的音频生成模型;前者通过渐进去噪过程生成高保真音频,后者通过类似的扩散过程生成详细的音频。MeLoDy 模型(Stefani 1987)结合了语言模型(LMs)和扩散概率模型(DPMs),在保持高音频质量的同时减少了正向传播的次数,解决了计算效率问题。Noise2Music(Huang et al. 2023a)基于扩散模型,专注于文本提示与生成音乐之间的关联,展示了生成与输入文本描述紧密相关的音乐的能力。
生成对抗网络(GAN):GAN 通过生成器和判别器之间的对抗训练生成高质量、逼真的音乐内容,使其特别适合生成复杂多样的音频。例如,DCGAN(Radford, Metz, and Chintala 2016)在生成高保真音频方面表现出色。像 WaveGAN(Donahue, McAuley, and Puckette 2019)和 MuseGAN(Ji, Yang, and Luo 2023)这样的模型在单声部和多声部音乐生成方面都有显著进展。MusicGen(Copet et al. 2024)是由 Meta 开发的基于深度学习的音乐生成模型,能够从噪声或特定输入条件中生成高质量、多样化的音乐片段。然而,GAN 的训练过程可能不稳定,并可能遭遇模式崩溃,导致生成的音乐缺乏多样性。
Transformer 架构:Transformer 利用自注意力机制高效处理序列数据,特别擅长捕获音乐作品中的长距离依赖关系和复杂结构。值得注意的工作包括 Music Transformer(Huang et al. 2018a),该模型使用自注意力生成结构化的音乐片段,有效捕捉多个时间尺度上的主题和重复结构。这导致生成的音乐在结构上连贯,更接近人类的作曲风格。MusicLM(Agostinelli et al. 2023)将基于 Transformer 的语言模型与音频生成相结合,在从文本描述生成高保真音乐音频方面提供了创新。然而,Transformer 模型在训练和生成时需要大量的计算资源。
变分自编码器 (VAE): VAE 通过学习潜在表示来生成新数据点,适用于涉及多样性和创造性的音乐生成任务。MIDI-VAE 模型(Brunner et al. 2018)使用 VAE 进行音乐风格转换,展示了 VAE 在生成多样化音乐方面的潜力。条件变分自编码器 (CVAE) 通过引入条件信息来增强多样性,减少了模式崩溃的风险。OpenAI 的 Jukebox(Dhariwal et al. 2020)将向量量化 VAE (VQ-VAE-2)与自回归模型相结合,生成带有歌词和复杂结构的完整歌曲。与 GAN 或变换器相比,VAE 生成的音乐可能在音乐性和连贯性上有所欠缺。
其他模型和方法:除了上述提到的模型,卷积神经网络(CNNs)、其他类型的递归神经网络(RNNs)以及结合多个模型的方法也已被应用于音乐生成。此外,基于规则的方法和进化算法为音乐生成提供了多样化的技术和创意方法。例如,WaveNet(Oord et al. 2016),一个基于 CNN 的模型,在直接建模音频信号方面具有创新性。MelGAN(Kumar et al. 2019)使用高效的卷积架构生成详细的音频。
4.4 混合模型框架:集成符号和音频音乐生成
最近,研究人员认识到,结合符号和音频音乐生成的优势可以显著提升生成音乐的整体质量。符号音乐生成模型(如 MIDI 或乐谱生成模型)擅长捕捉音乐结构和逻辑,而音频生成模型(如 WaveNet(Oord et al. 2016)或 Jukebox(Dhariwal et al. 2020))则专注于生成高保真和复杂音色的音频信号。然而,每种模型都有其独特的局限性:符号生成模型在音色表现上往往缺乏表现力,而音频生成模型在长程结构建模方面则存在困难。为了解决这些挑战,近期的研究提出了结合符号和音频生成优势的混合模型框架。一种常见的策略是使用共同采用变分自编码器(VAE)和变换器的方法。例如,在像 MuseNet(Topirceanu, Barina, and Udrescu 2014)和 MusicVAE(Yang et al. 2019)这样的模型中,符号音乐首先由变换器生成,然后转换为音频信号。 这些模型通常使用变分自编码器(VAE)来捕捉音乐的潜在表示,并采用变换器(Transformers)生成顺序符号表示。自监督学习方法在符号音乐生成中越来越受到关注。这些方法通常包括预训练模型以捕捉音乐的结构信息,然后将其应用于下游任务。像 Jukebox(Dhariwal 等,2020)这样的模型利用自监督学习增强生成模型的泛化能力和鲁棒性。
此外,将分层符号音乐生成与级联扩散模型相结合已被证明是有效的(Wang, Min, and Xia 2024)。这种方法定义了一种分层音乐语言,以捕捉不同层次的语义和上下文依赖关系。高级语言处理歌曲的整体结构,比如段落和短语,而低级语言则专注于
Good at capturing temporal
dependencies and sequential
data| Good at capturing temporal |
| :--- |
| dependencies and sequential |
| data |
高计算成本,训练需要大量数据集,难以处理长期依赖关系
High computational cost,
training requires large
datasets, struggles with
long-term dependencies| High computational cost, |
| :--- |
| training requires large |
| datasets, struggles with |
| long-term dependencies |
适合于顺序音乐生成任务,如和声和旋律生成
Suitable for sequential mu-
sic generation tasks, such as
harmonization and melody
generation| Suitable for sequential mu- |
| :--- |
| sic generation tasks, such as |
| harmonization and melody |
| generation |
High-quality, realistic gener-
ation, suitable for complex
and diverse audio| High-quality, realistic gener- |
| :--- |
| ation, suitable for complex |
| and diverse audio |
训练可能不稳定,容易出现模式崩溃,限制在捕捉结构和长期依赖上
Training can be unstable,
prone to mode collapse, lim-
ited in capturing structure
and long-term dependencies| Training can be unstable, |
| :--- |
| prone to mode collapse, lim- |
| ited in capturing structure |
| and long-term dependencies |
理想用于生成复杂的音频内容,如多乐器音乐或多样的音效
Ideal for generating com-
plex audio content like
multi-instrument music or
diverse sound effects| Ideal for generating com- |
| :--- |
| plex audio content like |
| multi-instrument music or |
| diverse sound effects |
变压器
音乐变换器,MusicLM
Music Transformer,
MusicLM| Music Transformer, |
| :--- |
| MusicLM |
擅长捕捉长距离依赖关系和复杂结构
Excellent at capturing long-
range dependencies and
complex structures| Excellent at capturing long- |
| :--- |
| range dependencies and |
| complex structures |
高计算需求,需要大量数据进行训练
High computational de-
mand, requires large
amounts of data for training| High computational de- |
| :--- |
| mand, requires large |
| amounts of data for training |
最适合生成具有复杂结构、长序列和连贯作品的音乐
Best for generating mu-
sic with complex structures,
long sequences, and coher-
ent compositions| Best for generating mu- |
| :--- |
| sic with complex structures, |
| long sequences, and coher- |
| ent compositions |
VAE
MIDI-VAE, Jukebox
鼓励多样性和创造力,适合风格迁移
Encourages diversity and
creativity, suitable for style
transfer| Encourages diversity and |
| :--- |
| creativity, suitable for style |
| transfer |
生成的音乐相比于 GANs 或 Transformers 可能缺乏音乐一致性和表现力
Generated music can lack
musical coherence and ex-
pressiveness compared to
GANs or Transformers| Generated music can lack |
| :--- |
| musical coherence and ex- |
| pressiveness compared to |
| GANs or Transformers |
最适合需要高变异性和创造性的任务,例如风格迁移和音乐探索
Best for tasks requiring high
variability and creativity,
such as style transfer and
music exploration| Best for tasks requiring high |
| :--- |
| variability and creativity, |
| such as style transfer and |
| music exploration |
High-quality audio genera-
tion, excels in producing
high-fidelity music| High-quality audio genera- |
| :--- |
| tion, excels in producing |
| high-fidelity music |
训练和生成时间可能很长,在实时场景中具有挑战性
Training and generation
time can be long, challeng-
ing in real-time scenarios| Training and generation |
| :--- |
| time can be long, challeng- |
| ing in real-time scenarios |
适合生成高质量的音频和音效,特别是在媒体制作中
Suitable for generating high-
quality audio and sound ef-
fects, particularly in media
production| Suitable for generating high- |
| :--- |
| quality audio and sound ef- |
| fects, particularly in media |
| production |
混合模型
MuseNet, MusicVAE
结合了符号模型和音频模型的优势,控制结构和音色
Combines strengths of sym-
bolic and audio models, con-
trols structure and timbre| Combines strengths of sym- |
| :--- |
| bolic and audio models, con- |
| trols structure and timbre |
在整合不同模型类型时的复杂性需要更复杂的调优
Complexity in integrating
different model types, re-
quires more sophisticated
tuning| Complexity in integrating |
| :--- |
| different model types, re- |
| quires more sophisticated |
| tuning |
非常适合创作需要结构一致性和丰富音频表现力的音乐,适用于高级音乐作曲
Ideal for creating music that
requires both structural co-
herence and rich audio ex-
pressiveness, useful in ad-
vanced music composition| Ideal for creating music that |
| :--- |
| requires both structural co- |
| herence and rich audio ex- |
| pressiveness, useful in ad- |
| vanced music composition |
Model Type Related Research Strengths Challenges Suitable Scenarios
LSTM DeepBach, BachBot "Good at capturing temporal
dependencies and sequential
data" "High computational cost,
training requires large
datasets, struggles with
long-term dependencies" "Suitable for sequential mu-
sic generation tasks, such as
harmonization and melody
generation"
GAN "MuseGAN, Wave-
GAN" "High-quality, realistic gener-
ation, suitable for complex
and diverse audio" "Training can be unstable,
prone to mode collapse, lim-
ited in capturing structure
and long-term dependencies" "Ideal for generating com-
plex audio content like
multi-instrument music or
diverse sound effects"
Transformer "Music Transformer,
MusicLM" "Excellent at capturing long-
range dependencies and
complex structures" "High computational de-
mand, requires large
amounts of data for training" "Best for generating mu-
sic with complex structures,
long sequences, and coher-
ent compositions"
VAE MIDI-VAE, Jukebox "Encourages diversity and
creativity, suitable for style
transfer" "Generated music can lack
musical coherence and ex-
pressiveness compared to
GANs or Transformers" "Best for tasks requiring high
variability and creativity,
such as style transfer and
music exploration"
Diffusion Models "DiffWave,WaveGrad,
Noise2Music" "High-quality audio genera-
tion, excels in producing
high-fidelity music" "Training and generation
time can be long, challeng-
ing in real-time scenarios" "Suitable for generating high-
quality audio and sound ef-
fects, particularly in media
production"
Hybrid Models MuseNet, MusicVAE "Combines strengths of sym-
bolic and audio models, con-
trols structure and timbre" "Complexity in integrating
different model types, re-
quires more sophisticated
tuning" "Ideal for creating music that
requires both structural co-
herence and rich audio ex-
pressiveness, useful in ad-
vanced music composition"| Model Type | Related Research | Strengths | Challenges | Suitable Scenarios |
| :--- | :--- | :--- | :--- | :--- |
| LSTM | DeepBach, BachBot | Good at capturing temporal <br> dependencies and sequential <br> data | High computational cost, <br> training requires large <br> datasets, struggles with <br> long-term dependencies | Suitable for sequential mu- <br> sic generation tasks, such as <br> harmonization and melody <br> generation |
| GAN | MuseGAN, Wave- <br> GAN | High-quality, realistic gener- <br> ation, suitable for complex <br> and diverse audio | Training can be unstable, <br> prone to mode collapse, lim- <br> ited in capturing structure <br> and long-term dependencies | Ideal for generating com- <br> plex audio content like <br> multi-instrument music or <br> diverse sound effects |
| Transformer | Music Transformer, <br> MusicLM | Excellent at capturing long- <br> range dependencies and <br> complex structures | High computational de- <br> mand, requires large <br> amounts of data for training | Best for generating mu- <br> sic with complex structures, <br> long sequences, and coher- <br> ent compositions |
| VAE | MIDI-VAE, Jukebox | Encourages diversity and <br> creativity, suitable for style <br> transfer | Generated music can lack <br> musical coherence and ex- <br> pressiveness compared to <br> GANs or Transformers | Best for tasks requiring high <br> variability and creativity, <br> such as style transfer and <br> music exploration |
| Diffusion Models | DiffWave,WaveGrad, <br> Noise2Music | High-quality audio genera- <br> tion, excels in producing <br> high-fidelity music | Training and generation <br> time can be long, challeng- <br> ing in real-time scenarios | Suitable for generating high- <br> quality audio and sound ef- <br> fects, particularly in media <br> production |
| Hybrid Models | MuseNet, MusicVAE | Combines strengths of sym- <br> bolic and audio models, con- <br> trols structure and timbre | Complexity in integrating <br> different model types, re- <br> quires more sophisticated <br> tuning | Ideal for creating music that <br> requires both structural co- <br> herence and rich audio ex- <br> pressiveness, useful in ad- <br> vanced music composition |
多样性:一个涵盖广泛音乐风格、结构和表现的多样化数据集有助于生成模型学习不同类型的音乐特征。多样性可以防止模型过拟合于特定风格或结构,从而增强它们在音乐生成中的创造力和适应性。例如,Lakh MIDI Dataset(Raffel 2016)和 NSynth Dataset(Engel et al. 2017)因其多样性而受到研究人员的欢迎,涵盖了从古典音乐到流行音乐的广泛曲目。
规模:数据集的规模直接影响模型的泛化能力。特别是在深度学习模型中,大规模数据集提供了更多的训练样本,使得模型能够更好地捕捉和学习复杂的音乐模式。这个原则在许多领域得到了验证,例如谷歌 Magenta 使用大规模数据集训练其生成模型并取得了显著成果。在 AI 音乐生成中,规模不仅意味着大量样本,还包含广泛的音乐风格和形式。
质量:数据集的质量在很大程度上决定了
音乐生成的有效性。高质量的数据集通常包括专业录制和标注的音乐,为模型提供准确和高保真的训练材料。例如,像 MUSDB18(Stöter, Liutkus, and Ito 2018)和 DAMP(Digital Archive of Mobile Performances)(Smule 2018)这样的数据集提供高质量的音频和详细的注释,支持音乐生成模型的精确训练。
标签信息:丰富的标签信息(例如,音高、动态、乐器类型、情感标签)为生成模型提供了更精确的上下文信息,增强了生成音乐的表现力和准确性。具有详细标签的数据集,如 The GiantMIDI Dataset(Kong et al. 2020a),不仅包括 MIDI 数据,还包括音高、和弦和旋律的详细注释,使模型能够生成更具表现力的音乐作品。
5.4 未来数据集需求 随着 AI 音乐生成技术的发展,对更大、更高质量和更多样化的数据集的需求不断增长。为了推动该领域的进展,未来的数据集开发应集中在以下几个方向:
多模态数据集:未来的研究将越来越关注多模态数据的使用。包含音频、MIDI、歌词、视频和其他模态的数据集将为多模态生成模型的研究提供关键支持。例如,AudioSet Dataset(Gemmeke et al. 2017)作为一个多模态音频数据集,已经在多模态学习中展示了潜力。通过整合各种数据形式,研究人员可以开发出更复杂和精确的生成模型,从而增强表达能力。
开放数据集:鼓励更多音乐版权持有者和研究机构发布高质量的数据集,对于推动 AI 音乐生成的创新和发展至关重要。开放数据集不仅增加了数据可用性,还促进了研究人员之间的合作,加速了技术进步。像 Common Voice(Ardila 等,2019 年)和 Freesound(Fonseca 等,2017 年)这样的项目显著推动了
在主观评估方面,早期研究在很大程度上依赖于人类专家的听觉判断,这一传统可以追溯到 1970 年代到 1990 年代。例如,(Loy and Abbott 1985)通过听力测试评估了计算机生成的音乐片段。到 2000 年代,主观评估方法变得更加系统化。(Cuthbert and Ariza 2010)提出了一种基于调查的评估框架,以研究 AI 生成音乐的情感和审美价值。随着深度学习技术的发展,主观评估的复杂性进一步增加。(Papadopoulos, Roy, and Pachet 2016)和(Yang, Chou, and Yang 2017)引入了多维情感评分系统和结合用户体验的评估模型,标志着主观评估研究的一个里程碑。最近,(Agarwal and Om 2021)提出了一种基于情感识别的多层次评估框架,而(Chu et al. 2022)开发了一种用户满意度测量工具,能够更准确地捕捉复杂的情感反应和文化相关性,使得主观评估方法更加系统和详细。
后来广泛应用于对 AI 生成音乐的评估。现代评估框架,如 Lim 等人(2017 年)提出的框架,将统计分析与用户反馈相结合,为 AI 生成音乐的全面评估提供了新方法。多维评分系统起源于电影和视频内容的自动评分,Hastie 等人(2009 年)为音乐评估中的多维评分模型奠定了基础。Herremans、Chew 等人(2016 年)进一步将这一概念扩展到音乐创作质量的评估。跨学科合作和定制评估工具在最近的 AI 音乐评估中变得越来越重要。Gabrielsson(2001 年)的研究强调了在开发针对不同风格和文化的评估工具时跨学科合作的重要性。最后,自动评估和实时反馈作为现代音乐评估的关键方向,通过机器学习和实时分析技术显著提高了音乐生成质量评估的效率和准确性。
AI 音乐生成技术具有广泛而多样的应用,从医疗保健到创意产业,逐渐渗透到各个领域并展现出巨大的潜力。根据其发展历史,以下是对各个应用领域和相关研究历史的详细描述。
7.1 医疗保健
人工智能音乐生成技术在医疗保健领域得到了广泛关注,特别是在情绪调节和康复治疗方面。在 1990 年代,音乐疗法被广泛用于缓解压力和焦虑。(Standley 1986)研究了音乐对焦虑症状的影响,并强调了音乐作为一种非药物治疗方法的潜力。虽然当时主要关注自然音乐,但(Sacks 2008)在他的著作《音乐病症》中进一步探讨了音乐对神经系统的影响,间接指出了定制音乐在神经康复中的潜力。随着人工智能技术的进步,生成的音乐开始应用于特定的治疗场景。(Aalbers et al. 2017)展示了音乐疗法对情绪调节的积极影响,并提出通过 AI 生成的音乐进行个性化治疗。 7.2 内容创作
内容创作是 AI 音乐生成技术应用最早的领域之一,经历了从实验性使用到主流创作工具的演变。在 1990 年代,David Cope 的《音乐智能实验》(Experiments in Musical Intelligence,EMI)(1996)是使用 AI 生成音乐进行内容创作的早期尝试。EMI 能够模拟各种作曲风格,其生成的音乐被用于实验作品。尽管该技术仍然相对基础,但这项开创性的研究为未来的应用奠定了基础。在 2000 年代,AI 生成的音乐开始广泛应用于电影和广告等创意产业。诸如 Jukedeck 等初创公司开发了使用生成对抗网络(GANs)和递归神经网络(RNNs)的音乐生成平台,为短视频和广告创作定制背景音乐。Briot 等人发现,AI 生成的音乐在质量和复杂性上已接近人类创作的音乐,凸显了 AI 提高内容创作效率的潜力(Briot, Hadjeres, and Pachet 2020)。最近,AI 音乐生成技术在内容创作中的应用变得更加广泛。 OpenAI 的 MuseNet(Payne 2019)和 Google 的 Magenta 项目(Magenta Team 2023)展示了生成复杂多风格音乐的能力,为电影、游戏和广告提供了高度符合背景的背景音乐。
7.3 教育
AI 音乐生成技术彻底改变了音乐教育,成为理解音乐理论和实际作曲的重要工具。在 21 世纪初,AI 开始在音乐教育中应用。Pachet 探讨了自动作曲软件在教育中的潜力,生成简单的练习来帮助学生理解音乐结构和和声(Pachet 2003)。这些早期系统旨在辅助而不是取代传统教学方法。随着技术的进步,AI 音乐生成系统变得更加智能和互动。像 MusEDLab 的 AI Duet 和 Soundtrap 的 AI Music Tutor(MusedLab Team 2023)这样的平台提供互动教育体验,听取用户的演奏,解释输入,并提供即时反馈或实时表演,以帮助提高技能和理解音乐细微差别。
7.4 社交媒体与个性化内容
AI 生成的音乐显著丰富了社交媒体和个性化内容中的用户体验,个性化推荐和自动化内容生成成为关键趋势。在 2000 年代,社交平台如 MySpace 首次引入简单的音乐生成算法,为用户资料创建背景音乐。尽管在技术上比较基础,这些早期尝试为个性化内容生成奠定了基础。随着社交媒体平台的多样化,个性化内容生成成为主流。音乐流媒体平台如 Spotify 和 Pandora 通过分析用户听歌历史和偏好,使用 AI 生成个性化播放列表,提供高度定制的音乐体验。AI 生成的音乐还被用于短视频平台,以增强内容吸引力。最近,AI 生成的音乐已成为社交媒体的重要组成部分,平台如 TikTok 使用 AI 来
在游戏和互动娱乐中,AI 音乐生成技术不仅提高了音乐创作效率,还增强了玩家的沉浸感。游戏开发者在 1990 年代开始探索算法背景音乐生成。例如,《模拟人生》系列使用了程序化音乐生成,根据玩家的动作和情感状态动态调整背景音乐,为后来的游戏音乐生成奠定了基础。随着游戏变得更加复杂,AI 音乐生成在游戏中找到了更广泛的应用。程序音频的概念被引入到游戏中,Björk 等人探讨了互动环境中的音乐生成(Bjork and Holopainen 2005)。到 2010 年代,AI 技术已经发展到能够实时适应游戏环境和玩家互动的动态音乐生成,特别是在开放世界和大型多人在线游戏(MMORPG)中。最近的研究,如 Foley 等人(2023)的研究,强调了 AI 生成音乐在根据玩家行为和情感动态创建适当背景音乐方面的作用,增强了玩家的沉浸感和互动性。 AI 生成的音乐和音效不仅提升了游戏体验,还减少了开发时间和成本(Beatoven Team 2023)。
7.6 创意艺术和文化产业
AI 生成的音乐在创意艺术和文化产业中展现了独特的潜力,推动了艺术创作的边界。泽纳基斯将算法与音乐创作相结合(泽纳基斯 1992),开启了计算机辅助创作的新时代,为 AI 在艺术中的应用提供了理论基础和实践经验。布里奥等人讨论了 AI 在生成复杂音乐形式中的潜力(布里奥,哈杰雷斯和帕舍 2020),应用于现代艺术和实验音乐创作,展示了 AI 生成音乐在创意艺术中的广泛应用。最近,AI 生成的音乐在创意艺术中达到了新的高度。现代艺术家使用 AI 技术制作实验音乐,打破了音乐创作的传统界限。AI 生成的音乐也应用于舞蹈编排和戏剧配乐,增强了表演艺术的表现力。在 NFT(不可替代代币)艺术作品中,AI 生成的音乐是创建和销售过程的一部分,推动了新的数字艺术形式。
7.7 广播和流媒体
AI 生成音乐在广播和流媒体服务中的应用正在扩大,显著增强了内容的丰富性和个性化。早期的流媒体平台如 Pandora 和Last.fm使用简单的算法根据用户的听歌历史生成推荐播放列表,为后来的流媒体 AI 生成音乐奠定了基础。到 2010 年代,像 Spotify 这样的流媒体服务开始使用深度学习和机器学习技术。
技术生成个性化音乐推荐。Spotify 的 Discover Weekly 功能就是一个典型例子,它结合了 AI 生成的音乐和推荐系统,提供高度定制的音乐体验。最近,AI 生成音乐在广播和流媒体中的应用变得更加复杂和多样化。例如,AI 生成的背景音乐被用于新闻广播和播客中,增强了内容的情感表达。流媒体平台还使用 AI 生成的音乐来创建无缝的播放列表,针对不同的用户场景,如健身、放松或工作环境。AI 生成的新音乐风格和实验音乐为用户提供了前所未有的听觉体验。
7.8 营销与品牌建设
AI 生成的音乐在营销和品牌建设中具有独特的应用,通过定制音乐增强品牌影响力。在早期的品牌营销中,背景音乐通常由人类策划者选择,但随着 AI 技术的发展,公司开始探索 AI 生成的音乐以增强广告效果。最初的应用集中在为广告生成背景音乐,以提高品牌吸引力。到 2010 年代,AI 生成的音乐在广告中变得更加普遍。像 Amper Music 这样的初创公司开发了 AI 音乐生成平台,帮助公司生成与其品牌身份相符的音乐,增强与受众的情感联系。最近,AI 生成的音乐在品牌建设中的应用加深了。品牌可以使用 AI 生成的音乐创建独特的音频标识,增强品牌识别度。AI 生成的音乐也广泛用于跨媒体营销活动,与视频、图像和文本内容无缝整合,为讲述品牌故事提供了新的方式。 此外,AI 生成的音乐被用于互动广告中,以创建与消费者互动的实时背景音乐,进一步加强品牌与消费者之间的联系。
AI 音乐生成技术在多个领域展现了显著的价值。从医疗保健到内容创作,从教育到社交媒体,AI 不仅提高了音乐生成的效率,还大大拓宽了音乐应用的范围。随着技术的不断进步,AI 音乐生成在更多领域将扮演越来越重要的角色,推动音乐创作和应用的全面创新。这些应用展示了 AI 在音乐生成中的创新潜力,并突显了其在改善人类生活质量、提升创作效率和促进文化创新方面的重要性。
这种多样性的限制在后来的深度学习模型中依然存在。尽管生成对抗网络(GANs)和递归神经网络(RNNs)的引入改善了多样性,但结果仍然常常遭受“模式崩溃”的问题——生成的样本在风格上过于相似,缺乏真正的原创性。Briot 等人对此现象进行了广泛讨论,强调了深度学习模型在音乐创作中的潜在局限性(Briot, Hadjeres, and Pachet 2020)。
其次,有效捕捉音乐中的长期依赖关系和复杂结构是 AI 音乐生成中的一个关键挑战(Briot, Hadjeres, 和 Pachet 2020)。作为一种基于时间的艺术形式,音乐的结构和情感表达往往依赖于复杂的时间跨度和层次(Hawthorne et al. 2018)。目前的 AI 模型在处理这种复杂性方面存在困难,尽管一些研究试图通过增加模型层数或引入新架构(如 Transformer 模型)来解决这个问题,但结果显示模型仍然难以生成具有深层结构一致性和长期依赖性的音乐。核心问题在于如何使模型在音乐生成过程中维持整体的宏观一致性,同时在微观层面展示丰富的细节和多样性。
评估方法的标准化在评估 AI 生成音乐的质量方面一直是一项持续的挑战。传统的评估方法主要依赖于人类听众的主观评估,但这些方法往往缺乏一致性和客观性(Yang and Chen 2012)。随着 AI 生成音乐应用的扩展,对更客观和一致的评估标准的需求也在增加。研究人员已开始探索基于统计分析和音乐理论的定量评估方法(Herremans, Chew et al. 2016),然而,如何有效地将这些方法与主观评估相结合仍然是一个需要进一步探索的领域(Engel et al. 2017)。完善此类评估系统对推进 AI 音乐生成技术的实际应用至关重要。
Aalbers, S.; Fusar-Poli, L.; Freeman, R. E.; Spreen, M.; Ket, J. C.; Vink, A. C.; Maratos, A.; Crawford, M.; Chen, X.-J.; 和 Gold, C. 2017. 音乐疗法治疗抑郁症. Cochrane 系统评价数据库, 1(11).
Agarwal, G.; 和 Om, H. 2021. 一种高效的监督框架,用于基于自编码器优化的支持向量回归模型进行音乐情绪识别。 IET 信号处理, 15(2): 98-121.
Ardila, R.; Branson, M.; Davis, K.; Henretty, M.; Kohler, M.; Meyer, J.; Morais, R.; Saunders, L.; Tyers, F. M.; 和 Weber, G. 2019. Common voice: A massively-multilingual speech corpus. arXiv 预印本 arXiv:1912.06670.