一个开源库搞定各类文本到音频生成，Meta发布AudioCraft 并公开了其技术细节

2024-06-30 19:56:22 [百科] 来源：避面尹邢网

一个开源库搞定各类文本到音频生成，个开搞定各类Meta发布AudioCraft

作者：机器之心 2023-08-05 13:56:03人工智能新闻为了高质量地生成各类音频，源库AudioCraft 包含三个模型：MusicGen、文本AudioGen 和 EnCodec。到音其中，频生MusicGen 使用 Meta 具有版权的个开搞定各类音乐数据进行训练，基于用户输入的源库文本生成音乐。

近来，文本Meta 发布并开源了多个 AI 模型，到音例如 Llama 系列模型、频生分割一切的个开搞定各类 SAM 模型。这些模型推动了开源社区的源库研究进展。现在，文本Meta 又开源了一个能够生成各种音频的到音 PyTorch 库 ——AudioCraft，并公开了其技术细节。频生

一个开源库搞定各类文本到音频生成，Meta发布AudioCraft 并公开了其技术细节

代码地址：https://github.com/facebookresearch/audiocraft
项目主页：

https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card

一个开源库搞定各类文本到音频生成，Meta发布AudioCraft 并公开了其技术细节

AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。我们先来听一下生成效果。

AudioCraft 可以生成一些现实场景中的声音，例如输入文本 prompt：「Whistling with wind blowing（风呼啸而过）」

语音1,机器之心,5秒

还能生成有旋律的音乐，例如输入文本 prompt：「Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach（流行舞曲，具有朗朗上口的旋律、热带打击乐和欢快的节奏，非常适合海滩）」

语音2,机器之心,30秒

甚至还可以选择具体的乐器，生成特定的音乐，例如输入文本输入文本 prompt：「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves（朴实的曲调，环保理念，尤克里里，和声，轻松，随和，有机乐器，柔和的节奏）」

语音3,机器之心,30秒

AudioCraft 简介

相比于文本、图像，音频生成是更具挑战性的，因为生成高保真音频需要对复杂的信号和模式进行建模。

为了高质量地生成各类音频，AudioCraft 包含三个模型：MusicGen、AudioGen 和 EnCodec。其中，MusicGen 使用 Meta 具有版权的音乐数据进行训练，基于用户输入的文本生成音乐；AudioGen 使用公共音效数据进行训练，基于用户输入的文本生成音频；EnCodec 用于压缩音频并以高保真度重建原始信号，保证生成的音乐是高质量的。