Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
开源的音乐生成
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
== 完全开源的音乐生成项目 == === Bark(Suno) === * '''主要功能''':Bark 是由 Suno 开发的 Transformer 架构文本生成音频模型,可根据文本提示生成高质量语音,并能合成其他音频——包括音乐、背景噪音和简单音效 (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。它不仅局限于常规 TTS(文本转语音),还可以产生笑声、叹气、哭泣等非言语声音,在一定程度上还能模拟音乐旋律。 * '''技术栈''':使用深度学习 Transformer 模型,基于 PyTorch 实现(需要 PyTorch 2.0+) (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。提供预训练模型权重(MIT开源许可)可直接推理使用 (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。 * '''API''':提供Python库接口,可本地调用生成音频。没有官方在线API服务(但社区有整合如 Hugging Face Space 等)。由于完全开源,使用其库本身即是API,免费使用。 * '''部署方式''':支持本地运行(CPU或GPU均可,GPU可加速) (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model);也可在云端自行部署。官方提供了示例 Colab 笔记和 Hugging Face 在线演示方便试用。 * '''相关链接''':GitHub 项目地址:<nowiki>https://github.com/suno-ai/bark</nowiki> (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model);Hugging Face Demo:<nowiki>https://huggingface.co/spaces/suno/bark。</nowiki> === MusicGen(Meta AudioCraft) === * '''主要功能''':MusicGen 是 Meta AI(Facebook)发布的文本生成音乐模型。给定文本描述(可选提供哼唱音频作为旋律参考),它能够生成对应风格的音乐片段 (facebook/musicgen-large · Hugging Face)。MusicGen 专注于'''纯音乐合成'''(主要是器乐曲),可以控制音乐的风格、氛围和长度等。 * '''技术栈''':基于自回归Transformer模型,结合了 Meta 提出的 EnCodec 神经音频编解码器来生成32kHz的音频 (facebook/musicgen-large · Hugging Face)。MusicGen 在超过20k小时的授权音乐数据上训练,包括内部高品质曲库及 Shutterstock/Pond5等素材。代码开源(AudioCraft 工具包)使用 PyTorch 实现,提供了小/中/大/旋律版共四种模型 (facebook/musicgen-large · Hugging Face)。模型权重以非商业许可开放(CC BY-NC 4.0) (facebook/musicgen-large · Hugging Face)。 * '''API''':没有官方商用API接口,但因其开源,可通过 Hugging Face 提供的推理API或自行部署服务器提供服务。也可使用 Hugging Face Transformers 库的Pipeline接口加载模型本地调用 (facebook/musicgen-large · Hugging Face)。使用模型本身不收取费用。 * '''部署方式''':支持本地部署,需要高性能GPU(推理大模型需≥16GB显存) (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。Meta 提供了 Colab 笔记和 Hugging Face Space 演示方便体验 (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。AudioCraft 框架也可用于自建服务。 * '''相关链接''':GitHub 项目(AudioCraft):<nowiki>https://github.com/facebookresearch/audiocraft;Hugging</nowiki> Face 模型卡:<nowiki>https://huggingface.co/facebook/musicgen-large</nowiki> (facebook/musicgen-large · Hugging Face)。 === Jukebox(OpenAI) === * '''主要功能''':Jukebox 是 OpenAI 于2020年发布的神经网络模型,可生成''原始音频形式''的音乐,包括带有简单歌唱的歌曲 (Jukebox | OpenAI)。给定''流派、歌手风格以及歌词文本''作为输入,它能从零开始创作一段音乐样本 (Jukebox | OpenAI)。Jukebox 能模拟多种流派和特定歌手风格的歌曲,并合成对应风格的声音和伴奏。 * '''技术栈''':采用分层多尺度的 VQ-VAE (向量量化自编码)对音乐音频进行压缩表示,然后通过多层级Transformer模型生成压缩后的音频编码 (OpenAI's Jukebox for music generation · Issue #16870 - GitHub)。模型相当庞大(参数数以十亿计),训练在海量音乐+歌词数据上。实现方面使用 PyTorch,OpenAI 开源了源码和预训练权重 (Jukebox | OpenAI)。 * '''API''':没有在线商用API服务。由于代码和模型已开放,用户可在本地运行或定制接口调用。OpenAI 提供了助手工具与示例来帮助生成和探索模型输出。使用开源模型本身免费,但运行代价较高(生成20秒音乐在V100 GPU上约需3小时) (Code for the paper "Jukebox: A Generative Model for Music" - GitHub)。 * '''部署方式''':主要支持本地部署,需要强大的GPU运算能力(推荐高端 NVIDIA GPU,多卡并行加速)。模型很大且生成缓慢,一般在研究环境或离线批量运行。亦有爱好者将其部署在云GPU服务器上供他人体验(非官方)。 * '''相关链接''':OpenAI 官方博客:<nowiki>https://openai.com/blog/jukebox</nowiki> (Jukebox | OpenAI);GitHub源码:<nowiki>https://github.com/openai/jukebox。</nowiki> === Riffusion === * '''主要功能''':Riffusion 是一个开源的实时音乐生成模型,独辟蹊径地通过''图像''来生成音乐 (Riffusion - Wikipedia)。它将Stable Diffusion文本生成图像模型'''微调'''在频谱图上:输入文本提示(如风格、乐器),输出相应音频的频谱图图像,然后再将该图转回音频 (Riffusion - Wikipedia)。生成结果通常是几秒钟的音乐片段,但模型可以利用潜空间的平滑过渡将多个片段无缝插接,形成连续音乐 (Riffusion - Wikipedia)。Riffusion 擅长生成循环音乐片段、氛围音等。 * '''技术栈''':基于 Stable Diffusion 文生图模型进行迁移学习,生成音频频谱图再经逆傅里叶变换得到声音 (Riffusion - Wikipedia)。由开发者 Seth Forsgren 和 Hayk Martiros 于2022年底推出,使用 Python 实现,代码和模型以MIT协议开源 (Riffusion - Wikipedia) (Riffusion - Wikipedia)。推理主要依赖GPU进行扩散模型采样。 * '''API''':官方没有公开收费API,但提供了交互式的_web应用_(riffusion.com)展示模型效果。由于项目开源,开发者可基于其库自行封装API。本地运行完全免费。 * '''部署方式''':支持本地运行,需要安装Stable Diffusion相应依赖并有合适GPU。已有社区提供的Colab笔记和演示站点,可实时输入提示生成音乐。其开源库也可集成到其他应用中实时推理 (Stable Diffusion fine-tuned to generate Music — Riffusion - Reddit)。 * '''相关链接''':官方网站:<nowiki>https://www.riffusion.com;GitHub</nowiki> 项目:<nowiki>https://github.com/riffusion/riffusion-hobby</nowiki> (riffusion/riffusion-hobby: Stable diffusion for real-time music generation)。 === Magenta(Google) === * '''主要功能''':Magenta 是 Google Brain 团队发起的开放源代码研究项目,探索机器学习在音乐和艺术创作中的应用 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 提供了一系列模型和工具,例如用于音乐'''旋律/和声生成'''的 RNN 和 Transformer 模型,以及用于'''音色合成'''的 WaveNet 自编码器(NSynth)等。其功能涵盖:旋律续写与和弦生成、多段旋律风格迁移、鼓点生成、Bach 风格复现等;还包括音频合成和效果应用(如DDSP数字音频合成等)。Google 还基于这些模型推出了 Magenta Studio 等应用,为用户提供AI伴奏、旋律创作和曲风转换等功能。 * '''技术栈''':Magenta 大部分模型使用 TensorFlow 实现(Python),部分新项目转向独立仓库或使用TensorFlow.js用于浏览器交互 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence) (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。典型模型例如 Music Transformer(基于注意力机制的长程音乐结构生成模型) (Music Transformer: Generating Music with Long-Term Structure)、Performance RNN(钢琴演奏序列生成)等采用深度学习序列模型;NSynth 则基于 WaveNet 自编码器进行音频合成 (magenta/magenta/models/nsynth/README.md at main - GitHub)。所有代码和预训练模型均开放源代码(Apache 2.0许可) (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。 * '''API''':Magenta 官方没有集中式的在线API服务。开发者通过安装 Magenta 库或使用其提供的模型接口(例如 Python库函数、Colab)即可调用模型功能。因为完全开源,使用其模型本身不需费用。部分模型也被移植到 Magenta.js,可在浏览器中实时调用。 * '''部署方式''':以本地或自备服务器部署为主。用户可以在本地安装 Magenta 库运行模型,或利用官方提供的 Colab 笔记在线运行模型 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 还提供 Ableton Live 插件形式的离线工具(Magenta Studio),方便音乐人将模型集成到工作流程中。 * '''相关链接''':Magenta 项目官网:<nowiki>https://magenta.tensorflow.org</nowiki> (Understanding Google Magenta: An Overview of Google's Open ...);GitHub仓库:<nowiki>https://github.com/magenta/magenta</nowiki> (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。 === Microsoft '''Muzic''' === * '''主要功能''':Muzic 是微软亚洲研究院推出的开放研究项目,涵盖'''音乐理解与生成'''的众多模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence) (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)。其子项目包括:'''歌曲创作'''(歌词生成、歌词转旋律、旋律转歌词,如 DeepRapper (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)用于说唱歌词,SongMASS用于歌词到旋律等),'''音乐结构'''(如MuseFORM用于曲式结构生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),'''多轨音乐'''(如PopMAG用于伴奏生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence),GETMusic用于任意轨合成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),'''文本生成音乐'''(如MuseCoCo模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),以及'''歌声合成'''(如高保真歌声合成模型 HiFiSinger (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence))等。Muzic 项目提供了这些模型对应的论文、部分训练代码和示例生成结果,展示从歌词到完整歌曲的生成能力。 * '''技术栈''':大多使用深度学习模型(Transformer、VAE、语言模型等)实现,不同子项目使用不同框架但多为 PyTorch。项目遵循开放科研准则,提供了源代码(MIT许可)和模型权重/数据(部分公开)供研究用途。由于涵盖领域广,每个模型技术细节各异,例如MuseCoCo采用了VAE+Transformer用于文本到音乐,HiFiSinger基于多阶段神经声码器用于歌声合成等。 * '''API''':Muzic 本身是科研项目集合,没有统一的对外API服务。开发者可以分别下载各子项目的源码自行运行。部分模型可以通过 Hugging Face 等平台找到第三方提供的推理接口。总体来说这些工具免费开放,但主要面向研究人员,需要自行搭建运行环境。 * '''部署方式''':以本地运行或研究环境部署为主。微软提供了每个子项目的代码仓库和说明,用户可在配备相应依赖(通常为Python深度学习环境)的本地机器或云端服务器上运行训练或推理。某些模型(如歌词生成)可在CPU上运行,但如旋律生成、歌声合成则通常需要GPU加速。 * '''相关链接''':Muzic 项目总览页面:<nowiki>https://github.com/microsoft/muzic</nowiki> (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence);各子项目链接可见该页面说明。例如 DeepRapper 仓库:<nowiki>https://github.com/microsoft/DeepRapper,MuseCoCo</nowiki> 论文:<nowiki>https://arxiv.org/abs/2306.05284</nowiki> 等。 ''(以上开源项目均可根据需要选择合适的模型,本地运行实现音乐或音频生成。这些方案提供了高度可定制的研究框架,但需要一定的机器学习背景和算力支持。)''
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)