AudioCraft:一个简单的一站式音频生成平台
想象一下,一个专业的音乐家能够在不弹奏一支乐器的情况下探索新的创作。或者一个独立游戏开发者能够以极少的预算为虚拟世界添加逼真的音效和环境噪音。或者一个小企业主能够轻松为他们最新的 Instagram 帖子添加配乐。这就是 AudioCraft 的承诺——我们的简单框架可以在训练原始音频信号而不是 MIDI 或钢琴卷轴的基础上,从基于文本的用户输入中生成高质量、逼真的音频和音乐。
AudioCraft 由三个模型组成:MusicGen、AudioGen 和 EnCodec。MusicGen 使用 Meta 拥有并特别许可的音乐进行训练,可以从基于文本的用户输入中生成音乐,而 AudioGen 则在公共音效上进行训练,可以从基于文本的用户输入中生成音频。今天,我们很高兴发布我们改进的 EnCodec 解码器的新版本,它可以生成更高质量的音乐并减少伪像;我们的预训练 AudioGen 模型,可以让你生成环境音效,如狗叫、汽车鸣笛或木地板上的脚步声;以及所有的 AudioCraft 模型权重和代码。这些模型可供研究用途,并可以进一步提高人们对这项技术的理解。我们很高兴可以让研究人员和从业者访问,使他们可以首次使用自己的数据集来训练自己的模型,从而推动技术的进步。
近年来,包括语言模型在内的生成型 AI 模型取得了巨大的进步,并展示出了卓越的能力:从根据文本描述生成各种图像和视频,显示出空间理解能力,到执行机器翻译甚至文本或语音对话代理的文本和语音模型。然而,尽管我们对生成型 AI 在图像、视频和文本方面的应用感到非常兴奋,但音频似乎总是落后一些。虽然已经有一些相关的工作,但它们都非常复杂且不太开放,因此人们无法轻松地使用它们。
生成任何类型的高保真音频都需要在不同的尺度上建模复杂的信号和模式。音乐可以说是最具挑战性的音频类型,因为它由局部和长期的模式组成,从一系列音符到多种乐器的全局音乐结构。利用 AI 生成连贯的音乐通常通过使用象 MIDI 或钢琴卷轴这样的符号表示来实现。然而,这些方法无法完全理解音乐中的表现细微和风格元素。最近的进展利用自我监督的音频表示学习和一些分层或级联模型来生成音乐,将原始音频输入到复杂系统中,以捕获信号中的长期结构并生成高质量的音频。但我们知道,这个领域还有更多的工作可以做。
AudioCraft 系列模型能够产生具有长期一致性的高质量音频,并且可以通过自然界面轻松交互。使用 AudioCraft,我们简化了与先前工作相比的音频生成模型的总体设计——提供完整的配方,让人们可以玩弄 Meta 在过去几年中一直在开发的现有模型,同时也赋予他们推动极限和开发自己模型的能力。
AudioCraft 既可以生成音乐和声音,也可以压缩音频——所有这些都在同一个平台上实现。因为它易于构建和重用,所以那些希望构建更好的声音生成器、压缩算法或音乐生成器的人可以在同一代码库中完成所有这些工作,并在他人的基础上进行进一步的开发。
尽管我们投入了大量的工作来简化模型,但团队同样致力于确保 AudioCraft 能够支持最新的技术。人们可以轻松地扩展我们的模型并将它们适应到他们的研究用例中。一旦你给人们访问模型并调整它们以满足自己的需求的权限,就有近乎无限的可能性。这就是我们想要通过这系列模型做的事情:让人们有能力扩展他们的工作。
从原始音频信号生成音频是具有挑战性的,因为它需要建模极长的序列。一个典型的几分钟的音乐轨道,以 44.1 kHz 采样(这是音乐录音的标准质量),由数百万个时间步组成。相比之下,像 Llama 和 Llama 2 这样的基于文本的生成模型被输入处理为代表每个样本的几千个时间步的子词。
为了解决这个挑战,我们使用 EnCodec 神经音频编解码器从原始信号中学习离散的音频标记,这为我们提供了音乐样本的新的固定“词汇表”。然后,我们可以在这些离散的音频标记上训练自回归语言模型,以生成新的标记、新的声音和音乐,当我们用 EnCodec 的解码器将标记转回音频空间时。
EnCodec 是一个有损的神经编解码器,专门训练来压缩任何类型的音频,并以高保真度重建原始信号。它由一个自动编码器组成,具有残余矢量量化瓶颈,可以产生具有固定词汇表的多个并行音频标记流。不同的流捕获音频波形的不同级别的信息,使我们能够从所有的流中以高保真度重构音频。
然后,我们使用一个自回归语言模型递归地建模来自 EnCodec 的音频标记。我们引入了一个简单的方法来利用标记并行流的内部结构,并证明,通过一个简洁的标记交错模式,我们的方法能有效地建模音频序列,同时捕获音频中的长期依赖关系,并使我们能够生成高质量的声音。
我们证明了我们可以训练 AI 模型来执行文本到音频生成的任务。给定一个声学场景的文本描述,模型可以生成与描述相对应的环境声音,具有逼真的录音条件和复杂的场景背景。
MusicGen 是一个专门为音乐生成定制的音频生成模型。音乐轨道比环境声音更复杂,当创作新的音乐作品时,特别需要生成具有长期结构的连贯样本。MusicGen 在大约 400,000 条录音上进行训练,这些录音包含文本描述和元数据,总共有 20,000 小时的音乐由 Meta 拥有或专门为此目的获得许可。
我们的团队继续在先进的生成 AI 音频模型的研究背后工作。作为这次 AudioCraft 发布的一部分,我们进一步提供了新的方法来通过离散表示解码的扩散基础方法提高合成音频的质量。我们计划继续研究音频生成模型的更好可控性,探索更多的调节方法,并推动模型捕获更长范围的依赖性的能力。最后,我们将继续研究在音频上训练的这种模型的限制和偏差。
团队正在努力改进当前的模型,从建模角度提高它们的速度和效率,并改善我们控制这些模型的方式,这将开启新的使用场景和可能性。
公开我们的工作非常重要,这样研究社区可以在其基础上进行构建,并继续我们正在进行的关于如何负责任地构建 AI 的重要对话。我们认识到,用于训练我们模型的数据集缺乏多样性。特别是,我们使用的音乐数据集包含大量的西方风格音乐,并且只包含用英语写的文本和元数据的音频-文本对。通过分享 AudioCraft 的代码,我们希望其他研究人员能更容易地测试新的方法,以限制或消除生成模型的潜在偏见和滥用。
负责任的创新不能孤立进行。我们的研究和生成的模型的开源有助于确保每个人都有平等的访问权。
我们将模型提供给研究社区进行使用,并分享 AudioGen 和 MusicGen 模型卡,详细说明我们如何构建模型,以符合我们负责任的 AI 实践的方式。我们的音频研究框架和训练代码在 MIT 许可下发布,以使更广泛的社区能够复制并在我们的工作基础上进行构建。通过开发更先进的控制,我们希望这些模型可以对音乐爱好者和专业人士都有所帮助。
有一个坚实的开源基础将促进创新,并补充我们在未来制作和听音频和音乐的方式:想象一下,有声效和史诗音乐的丰富的睡前故事。有了更多的控制,我们认为 MusicGen 可以变成一种新的乐器——就像合成器刚出现时一样。
我们将 AudioCraft 系列模型视为音乐家和声音设计师专业工具箱中的工具,它们可以提供灵感,帮助人们快速进行头脑风暴,并以新的方式迭代他们的作品。
与其将工作保存为无法突破的黑盒,不如公开我们如何开发这些模型,并确保它们对人们——无论是研究人员还是音乐社区——易于使用,帮助人们了解这些模型能做什么,了解它们不能做什么,并使他们能够实际使用它们。
在未来,生成 AI 可能会通过在早期原型设计和灰盒阶段加快反馈速度,帮助人们大大改善迭代时间,无论他们是一个大型 AAA 开发者在为元宇宙构建世界,一个音乐家(无论是业余的、专业的,
或者其他的)正在创作他们的下一首作品,还是一个小型或中型企业主正在寻找提升他们的创意资产。AudioCraft 是生成 AI 研究的重要一步。我们相信,我们开发的简单方法成功地生成了健壮的、连贯的、高质量的音频样本,将对开发考虑听觉和多模态界面的先进人机交互模型产生重要影响。我们迫不及待地想看到人们会用它创造出什么。
AudioCraft:一个简单的一站式音频生成平台
https://www.alidraft.com/2023/08/04/meta-audiocraft-aigc-music-gen/