Editing 训练音乐大模型 (section)

=== 其他值得关注的开源项目 ===
除了上述具体点名的项目，近年来还有一些值得我们关注和借鉴的音乐AI项目和模型：

* '''MusicLM (Google, 2023)'''：这是Google发布的令人瞩目的文本到音乐生成模型 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicLM采用了分级模型：将文本和对应音乐片段映射到共同的embedding空间（使用对比学习），再用级联的Transformer模型从embedding逐步生成高品质音频 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicLM在超大规模音乐数据（28万小时，包括音频和文本标签）上训练，能够生成最长达数分钟的音乐，风格涵盖世界音乐、多种乐器合奏。其音频质量和符合文本描述的准确性是前所未有的。然而Google并未开源MusicLM模型权重，仅开放了小型的文本-音频对数据集MusicCaps用于研究。尽管如此，MusicLM代表了当前'''业界最高水准'''的音乐生成能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)，它用到的技术如音频tokenizer、跨模态Transformer等都值得我们参考。特别地，MusicLM引入了'''对比训练'''确保音乐和文本embedding匹配，这个思路可能对提升文本条件下生成的相关性很有效 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* '''MusicGen (Meta, 2023)'''：Meta AI发布了MusicGen模型，并开源了代码和预训练权重 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicGen也是文本条件音乐生成，但策略不同：它采用了类似语言模型的方案，将音频压缩为离散码（用EnCodec工具），然后训练Transformer直接从文本embedding生成音频码序列 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicGen使用了商用版权音乐（Shutterstock等约20k首音乐，总长约390小时）进行训练 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。虽然数据规模远小于MusicLM，但结果表明在几十秒长度的音乐生成上表现良好，而且计算开销相对可控。MusicGen在HuggingFace上提供了模型，可以实时推理几秒音乐，非常实用。我们可以利用MusicGen的预训练模型作为基线，然后在自己数据上fine-tune，从而快速得到一个可用的文本控音乐生成系统。MusicGen也支持给定旋律条件（哼唱旋律+文本说明一起输入），这个功能对于实现人机协作作曲很有意义。
* '''MuseNet (OpenAI, 2019)'''：MuseNet是OpenAI在GPT-2之后推出的多乐器音乐生成模型。它通过训练一个巨大Transformer来预测MIDI事件，能够支持多达10种乐器和不同风格（从莫扎特到电影配乐）的4分钟音乐生成 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseNet没有学音频，只生成MIDI，注重复杂编曲。OpenAI提供了MuseNet的在线Demo（但未公开权重），很多人体验过AI自动接续著名曲目的效果。MuseNet的结构在今天看来并不特别，但它展示了'''单个Transformer处理多轨拼接的能力'''，通过在训练集中混合不同风格和编制，让模型具备组合创新能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseNet也使用了一些技巧如绝对位置嵌入、稀疏注意力等来延长序列。作为先驱项目，它告诉我们一个通用模型可以横跨古典和现代风格，只要训练数据覆盖足够广。我们在设计模型时，也可以走'''统一模型'''路线，而非每种风格一个模型，以利于模型自发学到融合与变换。
* '''DiffWave / WaveNet'''：这些是生成音频波形的模型，虽起初用于语音合成，但概念上适用于乐器音频。'''WaveNet'''（2016, DeepMind）使用因果卷积自回归生成，音质极佳但生成速度慢，被Jukebox等借鉴作为解码器 (Jukebox | OpenAI)。'''DiffWave'''（2020）将扩散模型用于音频，是文本到语音中的革命性模型 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。在音乐领域，可以考虑将DiffWave改造成无条件或带有条件的音乐生成，获得高保真音频输出。社区中Harmonai组织有类似的'''Dance Diffusion'''项目，提供了若干预训练的扩散模型，可生成鼓loop、合成器音色等。如果我们想探索扩散模型，更快的办法是从这些公开的预训练出发，再调整到自己的任务。
* '''MuseGAN / JazzGAN'''：这是GAN在音乐中的典型应用 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseGAN(2017)侧重多轨钢琴卷轴的同时生成，采用卷积网络+多判别器来保证不同轨之间协调 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。虽然GAN在音乐上没有Transformer火，但MuseGAN证明了GAN擅长生成固定长度的音乐片段，特别在需要多样性的时候。另有一些基于GAN的风格迁移，如CycleGAN用于将音乐演奏风格转换（比如钢琴弹奏风格迁移），这些都开源了代码。若我们目标之一是音乐风格转换，这些GAN方案可能提供比直接训练Transformer更简单的实现。
* '''OpenAI Whisper & AudioLM'''：虽然不是直接音乐生成，但OpenAI的Whisper模型是强大的通用音频序列模型，而AudioLM是Google提出的未标注音频生成框架。AudioLM使用分级Transformer生成隐含语音/音频token，实现高质量续音。将AudioLM概念用于音乐是可行的（实际上MusicLM正是此方向）。这些工作体现出'''将音频分层量化+语言模型生成'''是处理长音频的有效路径。对我们来说，如果打算生成长音频，分层量化技术（如SoundStream、EnCodec等）不可或缺。
* '''音乐与其它领域结合'''：还有一些项目把音乐生成融入多模态情景，例如'''AIVA'''（一家商业AI作曲公司）可以根据视频画面情绪生成配乐；'''RockAI'''尝试生成吉他Tabs等等。这提醒我们音乐AI也可以和视觉、交互等结合，形成更综合的产品。

综合来看，音乐AI领域百花齐放。我们应持续关注最新开源成果，并善加利用已有模型和资源。特别是MusicLM和MusicGen代表了当前'''文本指导音乐'''的最佳实践，我们可以以它们为标杆校准自身方案性能 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。而Magenta、MuseNet等框架让我们看到'''符号层面的创作潜力'''，可考虑多管齐下，先生成符号再转音频，或者提供符号编辑接口给用户增强体验。

通过学习这些项目，我们在技术选型时就有了清晰依据：知道什么方案曾成功过，遇到过哪些坑。这将大大提高我们项目决策的信心和正确性。