3.1 KiB
3.1 KiB
👩🍳 声音大厨指南
欢迎来到 VoxCPM 厨房!按照这份食谱,烹饪出完美的生成语音。让我们开始吧。
🥚 第一步:准备基础食材(内容)
首先,选择你输入文本的方式:
1. 普通文本(经典模式)
- ✅ 保持“文本标准化 (Text Normalization)”开启。自然地输入文字(例如 "Hello, world! 123")。系统将使用 WeTextProcessing 库自动处理数字、缩写和标点符号。
2. 音素输入(原生模式)
- ❌ 关闭“文本标准化 (Text Normalization)”。输入音素文本,如
{HH AH0 L OW1}(英语) 或{ni3}{hao3}(中文),以进行精确的发音控制。在此模式下,VoxCPM 还支持对其他复杂的非标准化文本的原生理解——快来试试吧! - 音素转换:对于中文,音素使用拼音转换。对于英语,音素使用 CMUDict 转换。更多详细信息请参考相关文档。
🍳 第二步:选择风味(声音风格)
这是让你的音频拥有独特声音的秘制酱料。
1. 使用提示语音烹饪(跟随名家食谱)
- 提示语音(Prompt Speech)为 VoxCPM 提供所需的声学特征。说话者的音色、说话风格,甚至背景声音和氛围都将被复制。
- 为了获得干净、降噪的声音:
- ✅ 启用“提示语音增强 (Prompt Speech Enhancement)”。这就像一个噪音过滤器,去除背景嘶嘶声和隆隆声,给你一个纯净、干净的声音克隆。但是,这将限制音频采样率为 16kHz,限制了克隆质量的上限。
- 为了获得高质量音频克隆(最高 44.1kHz):
- ❌ 禁用“提示语音增强 (Prompt Speech Enhancement)”以保留所有原始音频信息,包括背景氛围,并支持高达 44.1kHz 采样率的音频克隆。
2. 自然烹饪(让模型即兴发挥)
- 如果没有提供参考,VoxCPM 将成为一位创意大厨!通过其基础模型 MiniCPM-4 的文本智能,它会根据文本本身推断出合适的说话风格。
- 专业提示:用任何文本挑战 VoxCPM——诗歌、歌词、戏剧独白——它可能会带来一些有趣的结果!
🧂 第三步:最后的调味(微调结果)
你已经准备好上菜了!但对于想要调整口味的大厨,这里有两个关键的香料。
CFG 值(多严格地遵循食谱)
- 默认值:一个很好的起点。
- 声音听起来紧张或奇怪? 降低此值。它告诉模型更加放松和即兴,非常适合富有表现力的提示。
- 需要最大的清晰度和对文本的忠实度? 稍微调高它,让模型保持更严格的控制。
- 短句? 考虑增加 CFG 值以获得更好的清晰度和忠实度。
- 长文本? 考虑降低 CFG 值以提高长段落的稳定性和自然度。
推理步数(炖煮时间:质量与速度)
- 需要快餐? 使用较低的数值。非常适合快速草稿和实验。
- 烹饪大餐? 使用较高的数值。这让模型“炖煮”得更久,提炼音频以获得卓越的细节和自然度。
祝创作愉快!🎉 从默认设置开始,根据你的项目进行调整。厨房是你的了!