Editing 开源的音乐生成 (section)

== 完全开源的音乐生成项目 ==

=== Bark（Suno） ===

* '''主要功能'''：Bark 是由 Suno 开发的 Transformer 架构文本生成音频模型，可根据文本提示生成高质量语音，并能合成其他音频——包括音乐、背景噪音和简单音效 (GitHub - suno-ai/bark:  Text-Prompted Generative Audio Model)。它不仅局限于常规 TTS（文本转语音），还可以产生笑声、叹气、哭泣等非言语声音，在一定程度上还能模拟音乐旋律。
* '''技术栈'''：使用深度学习 Transformer 模型，基于 PyTorch 实现（需要 PyTorch 2.0+） (GitHub - suno-ai/bark:  Text-Prompted Generative Audio Model)。提供预训练模型权重（MIT开源许可）可直接推理使用 (GitHub - suno-ai/bark:  Text-Prompted Generative Audio Model)。
* '''API'''：提供Python库接口，可本地调用生成音频。没有官方在线API服务（但社区有整合如 Hugging Face Space 等）。由于完全开源，使用其库本身即是API，免费使用。
* '''部署方式'''：支持本地运行（CPU或GPU均可，GPU可加速） (GitHub - suno-ai/bark:  Text-Prompted Generative Audio Model)；也可在云端自行部署。官方提供了示例 Colab 笔记和 Hugging Face 在线演示方便试用。
* '''相关链接'''：GitHub 项目地址：<nowiki>https://github.com/suno-ai/bark</nowiki> (GitHub - suno-ai/bark:  Text-Prompted Generative Audio Model)；Hugging Face Demo：<nowiki>https://huggingface.co/spaces/suno/bark。</nowiki>

=== MusicGen（Meta AudioCraft） ===

* '''主要功能'''：MusicGen 是 Meta AI（Facebook）发布的文本生成音乐模型。给定文本描述（可选提供哼唱音频作为旋律参考），它能够生成对应风格的音乐片段 (facebook/musicgen-large · Hugging Face)。MusicGen 专注于'''纯音乐合成'''（主要是器乐曲），可以控制音乐的风格、氛围和长度等。
* '''技术栈'''：基于自回归Transformer模型，结合了 Meta 提出的 EnCodec 神经音频编解码器来生成32kHz的音频 (facebook/musicgen-large · Hugging Face)。MusicGen 在超过20k小时的授权音乐数据上训练，包括内部高品质曲库及 Shutterstock/Pond5等素材。代码开源（AudioCraft 工具包）使用 PyTorch 实现，提供了小/中/大/旋律版共四种模型 (facebook/musicgen-large · Hugging Face)。模型权重以非商业许可开放（CC BY-NC 4.0) (facebook/musicgen-large · Hugging Face)。
* '''API'''：没有官方商用API接口，但因其开源，可通过 Hugging Face 提供的推理API或自行部署服务器提供服务。也可使用 Hugging Face Transformers 库的Pipeline接口加载模型本地调用 (facebook/musicgen-large · Hugging Face)。使用模型本身不收取费用。
* '''部署方式'''：支持本地部署，需要高性能GPU（推理大模型需≥16GB显存） (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。Meta 提供了 Colab 笔记和 Hugging Face Space 演示方便体验 (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。AudioCraft 框架也可用于自建服务。
* '''相关链接'''：GitHub 项目（AudioCraft）：<nowiki>https://github.com/facebookresearch/audiocraft；Hugging</nowiki> Face 模型卡：<nowiki>https://huggingface.co/facebook/musicgen-large</nowiki> (facebook/musicgen-large · Hugging Face)。

=== Jukebox（OpenAI） ===

* '''主要功能'''：Jukebox 是 OpenAI 于2020年发布的神经网络模型，可生成''原始音频形式''的音乐，包括带有简单歌唱的歌曲 (Jukebox | OpenAI)。给定''流派、歌手风格以及歌词文本''作为输入，它能从零开始创作一段音乐样本 (Jukebox | OpenAI)。Jukebox 能模拟多种流派和特定歌手风格的歌曲，并合成对应风格的声音和伴奏。
* '''技术栈'''：采用分层多尺度的 VQ-VAE （向量量化自编码）对音乐音频进行压缩表示，然后通过多层级Transformer模型生成压缩后的音频编码 (OpenAI's Jukebox for music generation · Issue #16870 - GitHub)。模型相当庞大（参数数以十亿计），训练在海量音乐+歌词数据上。实现方面使用 PyTorch，OpenAI 开源了源码和预训练权重 (Jukebox | OpenAI)。
* '''API'''：没有在线商用API服务。由于代码和模型已开放，用户可在本地运行或定制接口调用。OpenAI 提供了助手工具与示例来帮助生成和探索模型输出。使用开源模型本身免费，但运行代价较高（生成20秒音乐在V100 GPU上约需3小时） (Code for the paper "Jukebox: A Generative Model for Music" - GitHub)。
* '''部署方式'''：主要支持本地部署，需要强大的GPU运算能力（推荐高端 NVIDIA GPU，多卡并行加速）。模型很大且生成缓慢，一般在研究环境或离线批量运行。亦有爱好者将其部署在云GPU服务器上供他人体验（非官方）。
* '''相关链接'''：OpenAI 官方博客：<nowiki>https://openai.com/blog/jukebox</nowiki> (Jukebox | OpenAI)；GitHub源码：<nowiki>https://github.com/openai/jukebox。</nowiki>

=== Riffusion ===

* '''主要功能'''：Riffusion 是一个开源的实时音乐生成模型，独辟蹊径地通过''图像''来生成音乐 (Riffusion - Wikipedia)。它将Stable Diffusion文本生成图像模型'''微调'''在频谱图上：输入文本提示（如风格、乐器），输出相应音频的频谱图图像，然后再将该图转回音频 (Riffusion - Wikipedia)。生成结果通常是几秒钟的音乐片段，但模型可以利用潜空间的平滑过渡将多个片段无缝插接，形成连续音乐 (Riffusion - Wikipedia)。Riffusion 擅长生成循环音乐片段、氛围音等。
* '''技术栈'''：基于 Stable Diffusion 文生图模型进行迁移学习，生成音频频谱图再经逆傅里叶变换得到声音 (Riffusion - Wikipedia)。由开发者 Seth Forsgren 和 Hayk Martiros 于2022年底推出，使用 Python 实现，代码和模型以MIT协议开源 (Riffusion - Wikipedia) (Riffusion - Wikipedia)。推理主要依赖GPU进行扩散模型采样。
* '''API'''：官方没有公开收费API，但提供了交互式的_web应用_（riffusion.com）展示模型效果。由于项目开源，开发者可基于其库自行封装API。本地运行完全免费。
* '''部署方式'''：支持本地运行，需要安装Stable Diffusion相应依赖并有合适GPU。已有社区提供的Colab笔记和演示站点，可实时输入提示生成音乐。其开源库也可集成到其他应用中实时推理 (Stable Diffusion fine-tuned to generate Music — Riffusion - Reddit)。
* '''相关链接'''：官方网站：<nowiki>https://www.riffusion.com；GitHub</nowiki> 项目：<nowiki>https://github.com/riffusion/riffusion-hobby</nowiki> (riffusion/riffusion-hobby: Stable diffusion for real-time music generation)。

=== Magenta（Google） ===

* '''主要功能'''：Magenta 是 Google Brain 团队发起的开放源代码研究项目，探索机器学习在音乐和艺术创作中的应用 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 提供了一系列模型和工具，例如用于音乐'''旋律/和声生成'''的 RNN 和 Transformer 模型，以及用于'''音色合成'''的 WaveNet 自编码器（NSynth）等。其功能涵盖：旋律续写与和弦生成、多段旋律风格迁移、鼓点生成、Bach 风格复现等；还包括音频合成和效果应用（如DDSP数字音频合成等）。Google 还基于这些模型推出了 Magenta Studio 等应用，为用户提供AI伴奏、旋律创作和曲风转换等功能。
* '''技术栈'''：Magenta 大部分模型使用 TensorFlow 实现（Python），部分新项目转向独立仓库或使用TensorFlow.js用于浏览器交互 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence) (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。典型模型例如 Music Transformer（基于注意力机制的长程音乐结构生成模型） (Music Transformer: Generating Music with Long-Term Structure)、Performance RNN（钢琴演奏序列生成）等采用深度学习序列模型；NSynth 则基于 WaveNet 自编码器进行音频合成 (magenta/magenta/models/nsynth/README.md at main - GitHub)。所有代码和预训练模型均开放源代码（Apache 2.0许可） (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。
* '''API'''：Magenta 官方没有集中式的在线API服务。开发者通过安装 Magenta 库或使用其提供的模型接口（例如 Python库函数、Colab）即可调用模型功能。因为完全开源，使用其模型本身不需费用。部分模型也被移植到 Magenta.js，可在浏览器中实时调用。
* '''部署方式'''：以本地或自备服务器部署为主。用户可以在本地安装 Magenta 库运行模型，或利用官方提供的 Colab 笔记在线运行模型 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 还提供 Ableton Live 插件形式的离线工具（Magenta Studio），方便音乐人将模型集成到工作流程中。
* '''相关链接'''：Magenta 项目官网：<nowiki>https://magenta.tensorflow.org</nowiki> (Understanding Google Magenta: An Overview of Google's Open ...)；GitHub仓库：<nowiki>https://github.com/magenta/magenta</nowiki> (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。

=== Microsoft '''Muzic''' ===

* '''主要功能'''：Muzic 是微软亚洲研究院推出的开放研究项目，涵盖'''音乐理解与生成'''的众多模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence) (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)。其子项目包括：'''歌曲创作'''（歌词生成、歌词转旋律、旋律转歌词，如 DeepRapper (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)用于说唱歌词，SongMASS用于歌词到旋律等），'''音乐结构'''（如MuseFORM用于曲式结构生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)），'''多轨音乐'''（如PopMAG用于伴奏生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)，GETMusic用于任意轨合成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)），'''文本生成音乐'''（如MuseCoCo模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence))，以及'''歌声合成'''（如高保真歌声合成模型 HiFiSinger (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)）等。Muzic 项目提供了这些模型对应的论文、部分训练代码和示例生成结果，展示从歌词到完整歌曲的生成能力。
* '''技术栈'''：大多使用深度学习模型（Transformer、VAE、语言模型等）实现，不同子项目使用不同框架但多为 PyTorch。项目遵循开放科研准则，提供了源代码（MIT许可）和模型权重/数据（部分公开）供研究用途。由于涵盖领域广，每个模型技术细节各异，例如MuseCoCo采用了VAE+Transformer用于文本到音乐，HiFiSinger基于多阶段神经声码器用于歌声合成等。
* '''API'''：Muzic 本身是科研项目集合，没有统一的对外API服务。开发者可以分别下载各子项目的源码自行运行。部分模型可以通过 Hugging Face 等平台找到第三方提供的推理接口。总体来说这些工具免费开放，但主要面向研究人员，需要自行搭建运行环境。
* '''部署方式'''：以本地运行或研究环境部署为主。微软提供了每个子项目的代码仓库和说明，用户可在配备相应依赖（通常为Python深度学习环境）的本地机器或云端服务器上运行训练或推理。某些模型（如歌词生成）可在CPU上运行，但如旋律生成、歌声合成则通常需要GPU加速。
* '''相关链接'''：Muzic 项目总览页面：<nowiki>https://github.com/microsoft/muzic</nowiki> (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)；各子项目链接可见该页面说明。例如 DeepRapper 仓库：<nowiki>https://github.com/microsoft/DeepRapper，MuseCoCo</nowiki> 论文：<nowiki>https://arxiv.org/abs/2306.05284</nowiki> 等。

''（以上开源项目均可根据需要选择合适的模型，本地运行实现音乐或音频生成。这些方案提供了高度可定制的研究框架，但需要一定的机器学习背景和算力支持。）''