找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 88|回复: 0

SongBloom:腾讯AI Lab开源的全长度歌曲生成模型

[复制链接]

73

主题

0

回帖

328

积分

管理员

积分
328
发表于 2025-10-30 16:47:50 | 显示全部楼层 |阅读模式
在人工智能与音乐创作融合的浪潮中,歌曲生成技术正逐渐成为音乐创作领域的一股新力量。腾讯AI Lab 联合香港中文大学(深圳)、南京大学,共同研发了一款创新的歌曲生成模型——SongBloom。该模型凭借其独特的技术架构和出色的表现,为音乐创作带来了全新的可能性,也推动了 AI 音乐生成技术的发展。



一、项目概述

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom 均优于现有开源方法,并与顶尖商业平台 Suno-v4.5 相当。



二、核心功能
1. 高效歌曲生成:SongBloom 能够快速生成完整歌曲,支持双通道、48kHz 高质量音频输出。

2. 创新生成范式:采用交错生成技术,结合自回归草图绘制和基于扩散的细化,交替生成语义和声学上下文。

3. 卓越音质与准确性:在音频质量和歌词准确性方面表现出色,接近领域最佳水平(SOTA),超越现有开源模型。

4. 开源与易用性:项目已开源,提供详细指南和多种模型版本,支持低显存设备运行,方便用户快速上手。

5. 广泛的应用前景:为音乐创作、音频制作等领域提供了强大的工具,能够显著提升创作效率,激发音乐创作的新灵感。

三、技术揭秘
(一)交错生成范式
SongBloom 的核心之一是交错生成范式。该范式通过交替生成语义和声学上下文,动态切换生成过程,优化歌曲整体结构和音质。这种范式使得语义和声学表示之间能够进行双向信息交换,并且两个阶段共享部分模型参数并联合优化。

(二)自回归草图绘制
自回归草图绘制阶段使用因果掩码的Transformer 解码器栈,生成草图 token 和对应的隐藏向量。歌词和风格提示等条件被添加到输入序列开头,先前 patch 的声学特征通过声学编码器压缩后,作为下一个 token 插入到隐藏向量的位置,为草图生成提供声学上下文。

(三)扩散模型细化
非自回归潜在扩散模块在每个patch 内并行预测声学潜在变量。模型使用 Rectified Flow-Matching (RFM) 目标进行训练,旨在预测速度场。条件包括自回归阶段生成的隐藏向量、当前 patch 的草图 token 以及前一个 patch 的声学潜在变量。

(四)离散与连续特征的融合
SongBloom 使用离散的 sketch token 和连续的 VAE latent 输出最终结果。这种融合方式既完整保留了自回归模型在结构连贯性、音素对齐上的优势,又充分发挥了扩散模型在连续特征生成中对音质的提升作用。

(五)多模态输入融合
模型能够深度理解歌词与音频样本这两类截然不同的输入信息,并通过强大的多模态融合技术,实现高度精准的歌曲生成。

四、性能表现
(一)客观指标
在客观指标方面,SongBloom 在多项指标上显著优于现有开源方法,并与领先的商业平台 Suno-v4.5 具有竞争力。例如,在音素错误率(PER)上,SongBloom 表现优秀,得益于对输入歌词结构的更忠实遵循。在 MuLan Cycle Consistency(MCC)上,SongBloom-full 取得了最高分。在自动评估的美学分数上,SongBloom-full-ft 在四项指标中的三项上优于所有其他基线。



(二)主观指标
在主观评估中,SongBloom 和 Suno-v4.5 表现最佳。SongBloom 在声乐相关指标(MUSV, QLTV, CRR)和一致性(CST)上表现出色。这表明 SongBloom 在生成音乐的听感上具有很高的质量,能够更好地满足用户的期望。

五、应用场景
(一)音乐创作
SongBloom 为音乐人和创作者提供了强大的灵感来源。它能够快速生成高质量的歌曲基础框架,帮助创作者探索新的音乐风格和创作方向。无论是独立音乐人快速生成歌曲初稿,降低创作门槛,还是影视、游戏配乐根据场景需求生成定制化背景音乐,SongBloom 都能提供高效、专业的解决方案。

(二)音频制作
在影视、游戏、广告等行业的音频制作中,SongBloom 可用于快速生成背景音乐或主题曲,提升制作效率。

(三)教育领域
作为音乐教育工具,SongBloom 能够帮助学生理解音乐结构和创作过程,激发学习兴趣。

(四)娱乐产业
在社交媒体、短视频等平台,SongBloom 可以为用户生成个性化的音乐内容,增强互动性和趣味性。

(五)商业应用
SongBloom 还可用于企业品牌推广、活动宣传等商业领域,为企业和品牌生成定制化的音乐。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表