Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
训练音乐大模型
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== 其他值得关注的开源项目 === 除了上述具体点名的项目,近年来还有一些值得我们关注和借鉴的音乐AI项目和模型: * '''MusicLM (Google, 2023)''':这是Google发布的令人瞩目的文本到音乐生成模型 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicLM采用了分级模型:将文本和对应音乐片段映射到共同的embedding空间(使用对比学习),再用级联的Transformer模型从embedding逐步生成高品质音频 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicLM在超大规模音乐数据(28万小时,包括音频和文本标签)上训练,能够生成最长达数分钟的音乐,风格涵盖世界音乐、多种乐器合奏。其音频质量和符合文本描述的准确性是前所未有的。然而Google并未开源MusicLM模型权重,仅开放了小型的文本-音频对数据集MusicCaps用于研究。尽管如此,MusicLM代表了当前'''业界最高水准'''的音乐生成能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review),它用到的技术如音频tokenizer、跨模态Transformer等都值得我们参考。特别地,MusicLM引入了'''对比训练'''确保音乐和文本embedding匹配,这个思路可能对提升文本条件下生成的相关性很有效 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。 * '''MusicGen (Meta, 2023)''':Meta AI发布了MusicGen模型,并开源了代码和预训练权重 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicGen也是文本条件音乐生成,但策略不同:它采用了类似语言模型的方案,将音频压缩为离散码(用EnCodec工具),然后训练Transformer直接从文本embedding生成音频码序列 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MusicGen使用了商用版权音乐(Shutterstock等约20k首音乐,总长约390小时)进行训练 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。虽然数据规模远小于MusicLM,但结果表明在几十秒长度的音乐生成上表现良好,而且计算开销相对可控。MusicGen在HuggingFace上提供了模型,可以实时推理几秒音乐,非常实用。我们可以利用MusicGen的预训练模型作为基线,然后在自己数据上fine-tune,从而快速得到一个可用的文本控音乐生成系统。MusicGen也支持给定旋律条件(哼唱旋律+文本说明一起输入),这个功能对于实现人机协作作曲很有意义。 * '''MuseNet (OpenAI, 2019)''':MuseNet是OpenAI在GPT-2之后推出的多乐器音乐生成模型。它通过训练一个巨大Transformer来预测MIDI事件,能够支持多达10种乐器和不同风格(从莫扎特到电影配乐)的4分钟音乐生成 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseNet没有学音频,只生成MIDI,注重复杂编曲。OpenAI提供了MuseNet的在线Demo(但未公开权重),很多人体验过AI自动接续著名曲目的效果。MuseNet的结构在今天看来并不特别,但它展示了'''单个Transformer处理多轨拼接的能力''',通过在训练集中混合不同风格和编制,让模型具备组合创新能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseNet也使用了一些技巧如绝对位置嵌入、稀疏注意力等来延长序列。作为先驱项目,它告诉我们一个通用模型可以横跨古典和现代风格,只要训练数据覆盖足够广。我们在设计模型时,也可以走'''统一模型'''路线,而非每种风格一个模型,以利于模型自发学到融合与变换。 * '''DiffWave / WaveNet''':这些是生成音频波形的模型,虽起初用于语音合成,但概念上适用于乐器音频。'''WaveNet'''(2016, DeepMind)使用因果卷积自回归生成,音质极佳但生成速度慢,被Jukebox等借鉴作为解码器 (Jukebox | OpenAI)。'''DiffWave'''(2020)将扩散模型用于音频,是文本到语音中的革命性模型 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。在音乐领域,可以考虑将DiffWave改造成无条件或带有条件的音乐生成,获得高保真音频输出。社区中Harmonai组织有类似的'''Dance Diffusion'''项目,提供了若干预训练的扩散模型,可生成鼓loop、合成器音色等。如果我们想探索扩散模型,更快的办法是从这些公开的预训练出发,再调整到自己的任务。 * '''MuseGAN / JazzGAN''':这是GAN在音乐中的典型应用 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。MuseGAN(2017)侧重多轨钢琴卷轴的同时生成,采用卷积网络+多判别器来保证不同轨之间协调 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。虽然GAN在音乐上没有Transformer火,但MuseGAN证明了GAN擅长生成固定长度的音乐片段,特别在需要多样性的时候。另有一些基于GAN的风格迁移,如CycleGAN用于将音乐演奏风格转换(比如钢琴弹奏风格迁移),这些都开源了代码。若我们目标之一是音乐风格转换,这些GAN方案可能提供比直接训练Transformer更简单的实现。 * '''OpenAI Whisper & AudioLM''':虽然不是直接音乐生成,但OpenAI的Whisper模型是强大的通用音频序列模型,而AudioLM是Google提出的未标注音频生成框架。AudioLM使用分级Transformer生成隐含语音/音频token,实现高质量续音。将AudioLM概念用于音乐是可行的(实际上MusicLM正是此方向)。这些工作体现出'''将音频分层量化+语言模型生成'''是处理长音频的有效路径。对我们来说,如果打算生成长音频,分层量化技术(如SoundStream、EnCodec等)不可或缺。 * '''音乐与其它领域结合''':还有一些项目把音乐生成融入多模态情景,例如'''AIVA'''(一家商业AI作曲公司)可以根据视频画面情绪生成配乐;'''RockAI'''尝试生成吉他Tabs等等。这提醒我们音乐AI也可以和视觉、交互等结合,形成更综合的产品。 综合来看,音乐AI领域百花齐放。我们应持续关注最新开源成果,并善加利用已有模型和资源。特别是MusicLM和MusicGen代表了当前'''文本指导音乐'''的最佳实践,我们可以以它们为标杆校准自身方案性能 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。而Magenta、MuseNet等框架让我们看到'''符号层面的创作潜力''',可考虑多管齐下,先生成符号再转音频,或者提供符号编辑接口给用户增强体验。 通过学习这些项目,我们在技术选型时就有了清晰依据:知道什么方案曾成功过,遇到过哪些坑。这将大大提高我们项目决策的信心和正确性。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)