美团开源LongCat-AudioDiT:1B/3.5B双版本,重新定义语音克隆 AI资讯
美团LongCat团队开源语音克隆模型LongCat-AudioDiT,提供1B与3.5B双版本。该模型抛弃梅尔谱,采用波形潜空间建模,性能超越Seed-TTS与CosyVoice。本文深入解析其核心技术、推理优化及在AI领域的应用前景。
没有找到文章
美团开源LongCat-AudioDiT:1B/3.5B双版本,重新定义语音克隆 AI资讯
美团LongCat团队开源语音克隆模型LongCat-AudioDiT,提供1B与3.5B双版本。该模型抛弃梅尔谱,采用波形潜空间建模,性能超越Seed-TTS与CosyVoice。本文深入解析其核心技术、推理优化及在AI领域的应用前景。