TangoFlux：超快音效生成模型，3秒生成30秒音频-联想知识库

TangoFlux：超快音效生成模型，3秒生成30秒音频

适用机型：台式 / 笔记本

知识编号：4251892025-05-14

催更新

TangoFlux：文本到音频生成的新突破

在人工智能领域，将文本转换为音频的技术正在迅速发展。最近，研究者们推出了一款名为TangoFlux的模型，它在性能和效率上都展现出了显著的优势。

技术特点

TangoFlux是一款高效的文本到音频生成模型，拥有515百万个参数。它能够在短短3.7秒内生成最长可达30秒的44.1kHz高质量音频，这一速度在单个A40GPU上的表现非常出色。TangoFlux主要特色是可以生成各种音效，如鸟叫、口哨、爆炸等声音，虽然在生成音乐方面效果稍逊，但其在音效生成上的表现已经足够令人印象深刻。

CLAP-Ranked Preference Optimization (CRPO) 框架

文本音频生成模型面临的一个主要挑战是如何创建偏好配对。与大型语言模型不同，文本音频生成模型缺乏可验证的奖励机制或金标准答案。为了解决这个问题，研究团队提出了一种名为CLAP-Ranked Preference Optimization (CRPO)的新框架。该框架通过迭代生成和优化偏好数据，以提升文本音频生成模型的对齐性能。研究表明，使用CRPO生成的音频偏好数据在性能上优于现有的替代方案。