admin/VoxCPM-use

Fork 0

Files

admin 1e44eba871 Initial commit with large files ignored

2025-12-11 00:12:18 +08:00

6.1 KiB

Raw Permalink Blame History

VoxCPM1.5 发布说明

发布日期： 2025年12月5日

🎉 概览

我们非常激动地推出一次重大升级，在保持 VoxCPM 上下文感知语音生成和零样本声音克隆核心能力的同时，提升了音频质量和效率。

特性	VoxCPM	VoxCPM1.5
Audio VAE 采样率	16kHz	44.1kHz
LM Token 速率	12.5Hz	6.25Hz
Patch Size	2	4
SFT 支持	✅	✅
LoRA 支持	✅	✅

🎵 模型更新

🔊 AudioVAE 采样率：16kHz → 44.1kHz

AudioVAE 现在支持 44.1kHz 采样率，这使得模型能够：

🎯 更好地克隆声音，保留更多高频细节，生成更高质量的语音输出

*注意：此升级在使用高质量参考音频时能生成更高质量的音频，但不能保证所有生成的音频都是高保真的。输出质量取决于**提示语音（prompt speech）*的质量。

⚡ Token 速率：12.5Hz → 6.25Hz

我们将 LM 主干网络中的 token 速率从 12.5Hz 降低到了 6.25Hz（LocEnc&LocDiT patch size 从 2 增加到 4），同时在评估基准上保持了相似的性能。这一变化：

💨 降低了生成相同长度音频的计算需求
📈 为更长音频生成奠定了基础
🏗️ 为未来训练更大的模型铺平了道路

模型架构说明：VoxCPM1.5 的核心架构与技术报告中保持一致。关键的修改是将局部模块（LocEnc & LocDiT）的 patch size 从 2 调整为 4，从而将 LM 处理速率从 12.5Hz 降低到 6.25Hz。由于局部模块现在需要处理更长的上下文，我们扩展了它们的网络深度，导致整体模型参数量略有增加。

生成速度说明：虽然模型参数增加了，但 VoxCPM1.5 生成 1 秒音频仅需 6.25 个 token（相比之前的 12.5 个 token）。虽然显示的生成速度（xx it/s）可能看起来变慢了，但实际的实时率（RTF = 音频时长 / 处理时间）没有差异，甚至可能更快。

🔧 微调支持

我们现在支持全量微调和 LoRA 微调，请参阅微调指南了解详细说明。

📚 文档

更新了 README，增加了版本对比
添加了全面的微调指南
改进了代码注释和文档

🙏 感谢大家

没有开源社区的反馈、测试和贡献，这次发布是不可能的。感谢你们帮助塑造 VoxCPM1.5！

📞 让我们共同建设

有问题、想法或想要贡献？

🐛 报告问题：OpenBMB/VoxCPM GitHub Issues
📖 深入文档：查看 docs/ 文件夹获取指南和 API 详情

享受 VoxCPM1.5 更丰富的声音和强大的新功能吧 🎉

我们迫不及待想听到你们接下来的创作！🥂

🚀 我们正在做的事情

我们正在持续改进 VoxCPM 并致力于开发激动人心的新功能：

🌍 多语言 TTS 支持：我们正在积极开发除中文和英文以外的语言支持。
🎯 可控表现力语音生成：我们正在研究可控语音生成，允许通过自然语言指令对语音属性（情感、音色、韵律等）进行细粒度控制。
🎵 通用音频生成基础：我们也希望探索 VoxCPM 作为统一的音频生成基础模型，能够联合生成语音、音乐和音效。不过，这是一个长期的愿景。

📅 下次发布：我们计划在 2026 年第一季度发布下一个版本，其中将包含重大改进和新功能。敬请关注更新！我们致力于使 VoxCPM 更加强大和通用。

❓ 常见问题 (FAQ)

Q: VoxCPM 支持个性化声音定制的微调吗？

A: 是的！VoxCPM 现在支持全量微调（SFT）和高效的 LoRA 微调。你可以使用自己的数据训练个性化声音模型。请参阅微调指南获取详细说明和示例。

Q: 16kHz 音频质量对我的用例足够吗？

A: 我们在 VoxCPM1.5 中升级了 AudioVAE 以支持 44.1kHz 采样率，这提供了更高质量的音频输出，更好地保留了高频细节。当使用高质量参考音频时，此升级能实现更好的声音克隆质量和更自然的语音合成。

Q: 稳定性问题解决了吗？

A: 我们在 VoxCPM1.5 中进行了稳定性优化，包括对推理代码逻辑、训练数据和模型架构的改进。根据社区反馈，我们收集了一些稳定性问题，例如：

噪声和混响增加
音频伪影（如啸叫/尖叫）
语速不稳定（加速）
音量波动（忽大忽小）
音频开头和结尾的噪声伪影
极短文本（如“你好”）的合成问题

我们改进了什么：

通过调整推理代码逻辑和优化训练数据，我们很大程度上修复了开头/结尾的伪影。
通过降低 LM 处理速率（12.5Hz → 6.25Hz），我们提高了长语音生成的稳定性。

还遗留什么： 我们承认长语音稳定性问题尚未完全解决。特别是对于高表现力或复杂的参考语音，自回归生成过程中的误差累积仍可能发生。我们将继续在未来版本中分析和优化这一点。

Q: VoxCPM 计划支持多语言 TTS 吗？

A: 目前，VoxCPM 主要在中文和英文数据上进行训练。我们正在积极研究和开发除中英文以外更多语言的多语言 TTS 支持。请告诉我们你希望支持哪些语言！

Q: VoxCPM 计划支持可控生成（情感、风格、细粒度控制）吗？

A: 目前，VoxCPM 仅支持零样本声音克隆和上下文感知语音生成。对特定语音属性（情感、风格、细粒度韵律）的直接控制是有限的。然而，我们正在积极研究具有细粒度控制能力的指令可控表现力语音生成，致力于实现人类指令到语音的生成模型！

Q: VoxCPM 支持不同的硬件芯片（如 Ascend 910B, XPU, NPU）吗？

A: 目前，我们尚未针对不同的硬件芯片适配 VoxCPM。我们的主要重点仍然是开发新的模型能力和提高稳定性。我们鼓励你查看社区开发者是否做了类似的工作，我们也热烈欢迎大家共同贡献和推动此类适配！

这些功能正在积极开发中，我们期待在未来的版本中分享更新！

6.1 KiB Raw Permalink Blame History Unescape Escape