Editing 训练音乐大模型 (section)

= 2. 技术方案 =

== 数据集准备 ==
'''数据收集与格式'''：训练音乐大模型首先需要大规模、高质量的音乐数据集。数据可以是'''符号音乐'''（如MIDI文件、乐谱）或'''音频'''（WAV、MP3等）。符号音乐以音符事件序列形式表示，信息量相对小且易于模型学习音乐结构；音频则包含丰富的音色和表现细节，但数据量庞大。选择哪种表示取决于任务需求：若关注作曲结构可用MIDI，若需最终音频效果则要用音频数据或两者结合 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。

'''常用开源数据集'''：

* 符号音乐方面，有如 '''Lakh MIDI Dataset (LMD)'''，包含17万首 MIDI 文件，涵盖古典到流行的广泛风格 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。LMD多样性高，常用于训练作曲模型以提高模型对各种风格的适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。另有 '''Nottingham''' 民谣数据库（1000首曲调）等用于旋律生成研究 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* 音频方面，大型数据集包括 '''Million Song Dataset'''（百万歌曲，主要用于信息检索）和 '''Free Music Archive (FMA)'''（10万首CC授权歌曲）等 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。专注于钢琴演奏的有 '''MAESTRO''' 数据集（约200小时钢琴MIDI与对应音频） (Applications and Advances of Artificial Intelligence in Music Generation:A Review), 常用于钢琴演奏生成和转录研究。针对乐器音色的有 '''NSynth'''（Google Magenta 提供，包含30万段单音符音频） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。多轨音乐的有 '''Groove MIDI Dataset'''（13.6小时鼓组和伴奏，多用于节奏生成） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。丰富多样的开源数据集为训练不同侧重的音乐模型提供了基础。
* 此外，新近的定制大型数据集也出现。例如OpenAI为训练Jukebox自建了含120万首歌曲的数据集（包含歌词和元数据） (Jukebox | OpenAI)。虽然未公开，这显示了顶尖模型所需数据规模已达数百万级别歌曲。

'''数据预处理'''：无论何种数据，预处理至关重要：

* 对于符号数据（MIDI），常需'''标准化表示'''：将MIDI事件序列离散化为模型可处理的token序列。例如采用类似语言模型的词表，将音高、时值、力度等编码成离散符号。Magenta提出的'''REMI'''表示（节奏-事件-度量信息）就是一例，能更好表示音乐节拍和和弦信息 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。此外可对MIDI移调、伸缩节奏以扩充数据规模和多样性（数据增强）。
* 对于音频数据，通常需'''特征表示或压缩'''：直接用原始波形建模难度极高，常将音频转换为梅尔频谱图或对数频谱等时频表示以降低数据维度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。新型方法包括'''VQ-VAE'''（向量量化自编码器）对音频进行离散压缩，例如Jukebox首先训练VQ-VAE将原始44.1kHz音频压缩为离散编码，再用生成模型预测编码序列 (Jukebox | OpenAI)。这大幅减少序列长度，使后续建模成为可能。同时，可对音频进行切片（如按小节片段）或降采样等预处理。
* 预处理还包括'''数据清洗和标注'''：去除低质量音频（杂音、剪辑）、统一文件格式和采样率，确保每条数据具备可能的标签（如流派、艺术家）供有监督训练使用。对于带歌词的歌曲，还需进行'''歌词与音频对齐'''（如Jukebox使用工具自动对齐歌词与时间） (Jukebox | OpenAI)。

'''数据多样性与规模考虑'''：确保数据涵盖丰富的风格与曲式有助于模型的泛化创作能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。研究表明，多样化数据可避免模型过度拟合某种风格，提升其创造力和适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。同时，大规模数据能提升深度模型捕捉复杂模式的能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，Magenta项目的成功部分归功于使用了大量跨风格数据训练模型，从而取得显著效果 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。因此，在构建数据集时，应追求风格和形式上的多样性以及足够的规模，以确保模型学到全面的音乐特征。

== 模型架构选择 ==
音乐生成可以视作序列生成问题，但与普通文本相比，音乐具有更复杂的多层结构和并发性质（和弦、伴奏同时发生）。常见的模型架构包括：

* '''循环神经网络 (RNN/LSTM/GRU)'''：早期不少音乐生成使用LSTM等RNN建模音符序列，例如 '''BachBot''' 用LSTM生成巴赫风格和声 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。RNN可以逐步生成音符，保留一定上下文记忆。然而，其隐藏状态容量有限，难以捕捉数百小节之外的长期结构，且容易产生重复片段或遗忘开头主题。尽管如此，RNN结构简单，适用于小规模数据和实时应用，但在长曲式建模上表现不佳。
* '''Transformer 自注意力架构'''：Transformer通过自注意力机制能够高效建模长序列，是目前主流选择 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。音乐Transformer模型能够捕获复杂的长程依赖关系和乐曲结构 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如 '''Music Transformer''' 引入相对位置编码，成功生成了结构连贯的钢琴独奏曲 (Music Transformer: Generating Music with Long-Term Structure)；'''Pop Music Transformer''' 利用Transformer-XL处理更长序列，实现流行钢琴曲的高质量生成 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。Transformers擅长在多轨、多乐章音乐中捕捉全局一致性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。其缺点是'''计算开销大'''：长序列自注意力随长度平方级增长，对GPU内存和算力要求高 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。因此，Transformer模型通常需要大数据训练以避免过拟合，并常结合稀疏注意力、相对位置等改进来缓解长序列计算负担。
* '''生成对抗网络 (GAN)'''：GAN通过生成器-判别器博弈训练，可以逼近音乐数据的分布。'''MuseGAN''' 是经典应用，采用GAN生成多轨钢琴卷轴，从而同时创作鼓、贝斯、吉他等伴奏轨 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。GAN的优势是生成速度快（一次前向传播生成整首曲子）、并且在鼓励多样性和创造性方面表现好，能生成与训练样本不一样的新颖曲调 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。然而GAN训练不稳定，易出现'''模式坍塌'''（即生成结果缺乏多样性，反复产出类似作品） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。另外GAN缺少显式的序列条件约束，可能难以保证长时间的结构一致性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。因此GAN较适合生成短片段或强调风格多样性的场景，如即兴片段生成、风格演变实验等 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* '''变分自编码器 (VAE)'''：VAE通过学习潜在空间来生成音乐，典型如 '''MusicVAE''' 可在潜在空间插值乐曲、实现曲风融合 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。VAE倾向于覆盖数据的整体分布，从而'''鼓励生成多样性'''，适合风格迁移和即兴创作等需要富于变化的任务 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如研究表明VAE可用于音乐风格转换，改变曲风同时保持内容连续 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。缺点是VAE生成的音乐有时欠缺精细的结构和表现力，与GAN或Transformer相比可能显得平淡 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。另外VAE容易产生模糊的输出（对应图像中的模糊，音乐中表现为和声进行不明确等）。为提高VAE效果，常结合结构化解码器或者与自回归模型混合使用。
* '''扩散模型 (Diffusion Model)'''：扩散模型近年来成为生成模型新宠，其逐步随机漫步和去噪过程能够生成'''高保真音频''' (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。如 '''DiffWave''' 用扩散模型成功合成高质量的语音和乐器音频 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。对于音乐，扩散模型擅长生成逼真的声音纹理和细节，音质上往往优于GAN（后者易引入杂音）。Riffusion项目将文本到图像的扩散模型用于音乐，通过把梅尔谱图当作图像生成，最终产出音频 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。扩散模型的主要缺点是'''计算成本高'''：生成需迭代数百步采样，难以实时应用 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。训练也较为耗时。不过，随着扩散模型在图像领域成功应用，其在音乐领域的探索正快速推进，用于需要高音质输出的场景（如高品质音色合成、环境音乐生成等） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* '''混合架构'''：一些方案结合多种模型优势，形成分阶段或多模块流水线。例如OpenAI '''Jukebox''' 采用了先用VQ-VAE压缩音频，再用三级Transformer自回归生成的混合架构 (Jukebox | OpenAI) (Jukebox | OpenAI)；OpenAI更早的 '''MuseNet''' 则将Transformer生成的多轨MIDI通过WaveNet合成音频，融合符号与音频两阶段 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。混合架构可以'''兼顾结构与音质'''：先生成符号音乐确保曲式完整，再渲染成音频保证听感逼真 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。但集成不同类型模型会增加系统复杂性和调试难度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。

'''模型选择考虑'''：技术负责人在选型时，应根据任务需求权衡上述架构：

* 如果需求侧重'''曲式结构'''和'''编曲复杂性'''，Transformer是优选，能产生长时间跨度且结构合理的音乐 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* 若希望'''鼓励创意多样性'''或进行风格混合，VAE或GAN提供更随机和多样的输出 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* 要求'''音频输出质量极高'''（如专业唱片级音质），扩散模型或基于autoencoder的方案可以生成更精细的声音细节 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* 在资源有限或实时性要求高的情况下，可考虑'''较小的RNN'''模型或经过压缩的Transformer模型，平衡质量和性能。
* 对于复杂任务，混合架构可以“一箭双雕”，但也需要相应的团队研发和调参能力支持。

== 训练框架 ==
大规模音乐模型的训练通常借助成熟的深度学习框架。主要选项有 TensorFlow、PyTorch 和 JAX 等：

* '''TensorFlow'''：谷歌出品的框架，成熟稳定，具有高性能分布式训练支持。Google Magenta项目早期大量采用TensorFlow构建模型，并提供了丰富的音乐模块（如MusicVAE、PerformanceRNN等） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。TensorFlow在TPU上有良好支持，非常适合需要在谷歌云TPU上训练大模型的场景。此外，TensorFlow 2.x的Keras接口易于快速原型实验。不过，相比PyTorch，TensorFlow的动态图调试略显不便，一些新兴研究代码社区活跃度相对低于PyTorch。
* '''PyTorch'''：Facebook (Meta) 出品的框架，因其动态图机制和友好的调试体验在研究界广受欢迎。绝大多数新发布的AI开源项目使用PyTorch，包括音乐领域的OpenAI Jukebox和Meta的MusicGen等，均在PyTorch上实现并开放了模型权重 (Jukebox | OpenAI) (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。PyTorch生态丰富，社区提供了大量预训练模型和工具（如 Hugging Face Transformers 库也开始兼容部分音乐生成模型）。对于企业而言，PyTorch的学习曲线相对平缓，工程师社区庞大，遇到技术问题更容易找到支持。缺点是在某些大规模分布式训练上，原生支持略逊于TensorFlow，但最新的PyTorch Distributed 已能很好地支持多GPU/多节点训练。
* '''JAX'''：谷歌开发的高性能数值计算库，擅长融合Python易用性与XLA编译优化，在TPU/GPU上都有极高性能。JAX近年被一些前沿研究采用，用于实现大型Transformer等模型（包括部分谷歌内部的音乐模型研究）。例如Google的MusicLM据推测使用了Lingvo/Flax（基于JAX）在TPU v4上训练。JAX的优势在于'''自动向量化和并行'''，对大型矩阵运算优化明显，在大型模型训练速度上可能优于纯PyTorch。其缺点是生态相对小众，调试和部署需要一定函数式编程经验。如果团队有强大的工程实力并获取TPU资源，JAX是值得考虑的方案，否则PyTorch可能更实际。

'''框架选型建议'''：技术决策时，可考虑团队现有技术栈和目标平台：

* 若团队之前在TensorFlow上有积累或计划使用Google云TPU，采用TensorFlow或JAX较顺畅。
* 若更看重开发效率、社区支持和灵活性，PyTorch是较稳妥的选择。
* 在研究原型阶段，也可利用TensorFlow和PyTorch的高级接口快速试验模型，然后在最终版中根据性能需求决定是否切换低阶优化的框架。

需要注意的是，无论框架如何选择，确保其与目标硬件（GPU/TPU）适配、以及后续部署环境兼容也很重要。例如移动端部署可能需要框架的精简推理库支持等。整体而言，目前音乐生成研究中'''PyTorch最为普及'''，而谷歌生态内项目则偏好TensorFlow/JAX，所以也可以根据借鉴的开源项目来决定，以方便利用其代码和模型。

== 训练策略 ==
训练音乐大模型可以采用多种学习策略，常见包括自监督学习、对抗训练、强化学习等，每种策略适用于不同的目标：

* '''自监督学习'''：这是绝大多数音乐生成模型的基本训练方式，即不需要人工标注目标，模型通过预测音乐序列本身的下一步/掩盖部分来学习模式。例如，语言模型式的训练：给定前面的音符序列，预测下一个音符（自回归训练）；或者掩盖一定比例音符，让模型填补（类似BERT的掩码训练）。这种方式利用了大量未标注音乐数据，让模型学习音乐结构和规律 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。对于音频，可采用预测未来波形片段或频谱的方式自监督训练。例如OpenAI Jukebox的Transformer就是以自回归方式预测压缩后的音乐代码序列 (Jukebox | OpenAI)。自监督的优点是能充分利用海量数据，缺点是模型学到的一般特征未必直接对应质量/风格等评价，需要结合特定任务微调。
* '''有监督训练（条件生成）'''：当数据有附加标签（如曲风、情绪、艺术家等）时，可采用有监督方式训练'''条件生成模型'''。即输入除了音乐内容外，还包含标签条件，让模型学会按条件生成对应风格的音乐。例如OpenAI Jukebox在训练时将“艺术家和流派”作为附加输入，从而模型学会在生成时遵循特定风格 (Jukebox | OpenAI)。类似地，可以用乐器分类、情感标签等指导模型。这种策略需要高质量的标注数据，但能让生成结果更可控。常用的方法是在模型架构中引入条件嵌入或条件层（如将标签嵌入与音乐主输入一起喂给Transformer）。
* '''对抗训练'''：即GAN的训练策略，生成器和判别器相互博弈改进。音乐GAN的典型应用如MuseGAN，通过判别器分辨真伪音乐，促进生成器创作更逼真的多轨音乐 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。对抗训练可与自监督结合，例如先用自监督预训练模型，再以GAN微调以提高输出的逼真度和风格仿真。这种策略的挑战在于不稳定，需要仔细平衡判别器和生成器的训练，以及避免模式坍塌 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。一些改进技巧包括谱归一化、经验回放、多重判别器等，以稳定训练过程 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。当追求输出在风格上高度接近真实音乐时，引入对抗训练有帮助，但也要权衡其训练难度。
* '''强化学习 (RL)'''：强化学习可用于在没有明确监督信号情况下，根据'''自定义的奖励函数'''优化音乐生成。比如定义音乐的和谐度、复杂度等指标为奖励，让模型生成得分高的音乐。早期尝试包括让Agent通过试错生成音乐，获得音乐理论规则符合度的奖励 (RL for music generation : r/reinforcementlearning - Reddit)。近期显著的进展是'''人类反馈强化学习 (RLHF)''' 的应用：Google的MusicRL研究中，先让人类对MusicLM生成结果进行偏好打分，训练一个“偏好模型”，然后用该偏好模型评分作为奖励信号微调生成模型 (MusicRL)。通过RLHF，模型更能创作出符合大众审美的音乐 (MusicRL)。RL的优势在于可以直接优化最终评价指标（如人类满意度），而非仅仅预测下一个音符。缺点是设计良好的奖励函数不易，稍有不慎模型可能学会不符合音乐常理的“投机”策略。此外，RL训练的样本效率较低，往往需要大量生成尝试。
* '''两阶段训练'''：针对复杂任务，可以采用'''预训练+微调'''策略。第一阶段用大规模通用音乐数据自监督预训练一个强大的基底模型，学到一般音乐知识；第二阶段在特定风格数据上微调，或用有监督信号（如评分、偏好）来微调，使模型针对特定任务优化。这类似NLP中的预训练大模型+下游任务调优。音乐领域也有类似案例，如OpenAI用Jukebox预训练得到的音频表示，再迁移用于其他音频任务 (Transfer Learning with Jukebox for Music Source Separation)。对于企业而言，这种策略能'''节约训练成本'''，直接利用开源预训练模型（如MusicGen、MusicLM基座）然后在自有数据上微调，比从零开始训练高效。
* '''分层逐级训练'''：音乐往往具有层次结构，可将模型训练拆解为多级。例如Jukebox分三级生成，每一级模型各自训练：顶层先生成粗略结构，再由下两层模型细化音频细节 (Jukebox | OpenAI)。这种分层训练使每级模型任务相对简单，训练更容易收敛。此外，对于特别长的序列，可以先训练模型生成短片段，再逐步扩展上下文长度（Curriculum Learning策略），逐渐让模型学会处理越来越长的音乐。
* '''协同训练与知识蒸馏'''：针对庞大的模型，也可以训练一个精度稍逊但轻量的学生模型。先训练一个性能出色但可能很大的教师模型，然后以其生成输出为“软标签”训练小模型（知识蒸馏）。这样在保持大部分生成质量的同时，得到一个推理代价低的模型，方便实用。

综合来说，训练策略的选择取决于：是否有明确的评价信号，是否有大量未标注数据，可控性要求高不高，以及训练资源多少。一般流程是'''先自监督/有监督训练基本模型'''，然后根据需要选用GAN或RL等高级策略微调以提升特定方面表现 (MusicRL)。对于追求实际应用的模型，还需要考虑如何结合用户反馈持续改进模型（比如上线后收集用户偏好再RL微调）。技术负责人应平衡实验复杂性与收益，逐步引入复杂训练策略以确保模型稳定收敛。

== 评估指标 ==
评估生成音乐的质量和效果是一个具有挑战性的课题，需要结合主观和客观指标 (Applications and Advances of Artificial Intelligence in Music Generation:A Review) (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。常用评估方法包括：

* '''主观评价（听感测试）'''：音乐质量终究要以人耳感受为准。主观评价通常邀请专家或普通听众对生成音乐进行盲听测试，让他们从'''音乐质量、风格一致性、创意性'''等方面打分，或在A/B对比中选择更优者 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，让受试者判断一段音乐是否由AI生成（类似图灵测试），或者在风格匹配测试中看AI生成曲目是否符合给定风格。'''平均意见得分 (MOS)''' 是常用指标，满分5分，统计听众对音质和悦耳程度的平均评分。另外还有'''偏好率'''：例如在对比测试中AI音乐被选为更好的比例。主观测试能直接反映人类体验，但成本高、效率低且有评分主观性差异 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。为了提高信度，通常需要足够多的样本和评委，以及明确的评分准则 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* '''客观评价（统计与理论指标）'''：为了量化评估，研究者设计了许多从音乐理论和信号分析角度出发的指标 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)：
** ''基于音乐内容统计''：比较生成音乐与真实音乐在某些统计特征上的接近程度。例如音高分布熵（衡量曲调多样性） (muspy.metrics — MusPy  documentation)、和弦进行频率、平均多音符数（polyphony） (muspy.metrics — MusPy  documentation)、节拍稳定性（如鼓点在小节网格上的对齐度） (muspy.metrics — MusPy  documentation)等。'''MusDrum Pattern Consistency'''等指标用于评估节奏规律性 (muspy.metrics — MusPy  documentation)。这些指标可以从生成曲集中计算并与训练集真实音乐的统计值对比，差距越小表示模型对音乐结构的模仿越到位 (muspy.metrics — MusPy  documentation)。例如，一个好的古典音乐生成模型应在音高多样性、和声转调频率等方面与真实古典乐接近，而不会一直重复同样几个和弦。
** ''基于信号处理和听觉模型''：对于音频输出，可采用类似语音合成评估的方法。如计算'''频谱失真'''（看频谱图差异）、信号噪声比等。然而这些低级指标往往不能充分反映音乐感知质量。
** ''嵌入空间距离''：近年来引入**Fréchet Audio Distance (FAD)**等指标，类似图像领域的FID，用预训练音频特征提取网络（如VGGish）将真实和生成音频映射到嵌入空间，计算两者分布之间的弗雷歇距离 (Adapting Frechet Audio Distance for Generative Music Evaluation)。FAD值越小表示生成音乐整体分布越接近真实音乐。FAD无需逐一配对比较参考音乐，适合评价大批生成样本质量 (Adapting Frechet Audio Distance for Generative Music Evaluation)。不过研究也指出FAD与人类感知的相关性尚需验证，选择不同的预训练嵌入也会影响结果 (Adapting Frechet Audio Distance for Generative Music Evaluation)。
** ''音乐理论一致性''：利用已有的音乐分析算法检验生成曲目是否符合基本理论规则，例如和声学规则（不出现连续五度八度等禁忌）、节奏是否合拍、音高是否在给定调内等。虽不能全面衡量音乐好坏，但能发现明显的技术错误。还有学者提出'''原创性'''和'''复杂度'''指标，如计算旋律重复度、动机发展程度，以量化生成音乐的新颖性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
** ''条件符合度''：如果模型有条件输入（如给定风格或歌词），则评估模型输出与条件的一致性也是重要指标。例如训练一个特定风格分类器，测试生成音乐被分类为目标风格的准确率，或者计算歌词与生成旋律的同步匹配程度等 (MusicRL)。又如MusicCaps数据集的'''文本-音乐相关性'''评价，即AI生成音乐对提示文本的符合程度，可以通过专家打分或embedding相似度计算来衡量 (Music Consistency Models - arXiv)。
* '''人机对比评测'''：综合主客观方法的一种评测是在人类创作音乐库和AI生成音乐库之间进行差异检验。例如进行'''伪听众测试'''：混合播放若干人作音乐和AI音乐，让听众判断哪些是AI作品，以此衡量AI作品的隐真程度。如果听众难以分辨，则说明模型达到了较高的逼真度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。这种测试可以定量地以“骗过听众的比例”来表示模型水平。
* '''用户体验反馈'''：在产品环境下，还可以依赖实际用户的反馈数据评估，如跳播率（如果AI生成音乐用于电台/播放列表，用户是否快速跳过）、停留时长、点赞率等。这些真实用户行为可作为模型效果的间接衡量指标，从而持续改进模型。

实际评估中，通常需要'''结合多种指标''' (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，一般流程可能是：先用客观指标筛查模型配置（快速比较不同模型在FAD、音乐统计特征上的表现），再挑选若干优胜模型进行人耳主观测评以最终确定最佳。同时，定性分析也重要，如请音乐专业人士点评生成曲在乐思发展、情感表达上的优缺点 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。目前音乐生成领域仍缺乏统一标准的评价协议，如何客观衡量音乐创意和美感是持续的研究难题 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。未来或需建立公共评测基准，将'''主观听感'''与'''客观特征'''结合，形成更全面的评价方法 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。对技术决策者来说，在汇报结果时应当同时提供客观数据和一些示例供听取，以便直观展示模型效果。