admin/VoxCPM-use

Files

admin 1e44eba871 Initial commit with large files ignored

2025-12-11 00:12:18 +08:00

3.1 KiB

Raw Permalink Blame History

👩‍🍳 声音大厨指南

欢迎来到 VoxCPM 厨房！按照这份食谱，烹饪出完美的生成语音。让我们开始吧。

🥚 第一步：准备基础食材（内容）

首先，选择你输入文本的方式：

1. 普通文本（经典模式）

✅ 保持“文本标准化 (Text Normalization)”开启。自然地输入文字（例如 "Hello, world! 123"）。系统将使用 WeTextProcessing 库自动处理数字、缩写和标点符号。

2. 音素输入（原生模式）

❌ 关闭“文本标准化 (Text Normalization)”。输入音素文本，如 {HH AH0 L OW1} (英语) 或 {ni3}{hao3} (中文)，以进行精确的发音控制。在此模式下，VoxCPM 还支持对其他复杂的非标准化文本的原生理解——快来试试吧！
音素转换：对于中文，音素使用拼音转换。对于英语，音素使用 CMUDict 转换。更多详细信息请参考相关文档。

🍳 第二步：选择风味（声音风格）

这是让你的音频拥有独特声音的秘制酱料。

1. 使用提示语音烹饪（跟随名家食谱）

提示语音（Prompt Speech）为 VoxCPM 提供所需的声学特征。说话者的音色、说话风格，甚至背景声音和氛围都将被复制。
为了获得干净、降噪的声音：
- ✅ 启用“提示语音增强 (Prompt Speech Enhancement)”。这就像一个噪音过滤器，去除背景嘶嘶声和隆隆声，给你一个纯净、干净的声音克隆。但是，这将限制音频采样率为 16kHz，限制了克隆质量的上限。
为了获得高质量音频克隆（最高 44.1kHz）：
- ❌ 禁用“提示语音增强 (Prompt Speech Enhancement)”以保留所有原始音频信息，包括背景氛围，并支持高达 44.1kHz 采样率的音频克隆。

2. 自然烹饪（让模型即兴发挥）

如果没有提供参考，VoxCPM 将成为一位创意大厨！通过其基础模型 MiniCPM-4 的文本智能，它会根据文本本身推断出合适的说话风格。
专业提示：用任何文本挑战 VoxCPM——诗歌、歌词、戏剧独白——它可能会带来一些有趣的结果！

🧂 第三步：最后的调味（微调结果）

你已经准备好上菜了！但对于想要调整口味的大厨，这里有两个关键的香料。

CFG 值（多严格地遵循食谱）

默认值：一个很好的起点。
声音听起来紧张或奇怪？ 降低此值。它告诉模型更加放松和即兴，非常适合富有表现力的提示。
需要最大的清晰度和对文本的忠实度？ 稍微调高它，让模型保持更严格的控制。
短句？ 考虑增加 CFG 值以获得更好的清晰度和忠实度。
长文本？ 考虑降低 CFG 值以提高长段落的稳定性和自然度。

推理步数（炖煮时间：质量与速度）

需要快餐？ 使用较低的数值。非常适合快速草稿和实验。
烹饪大餐？ 使用较高的数值。这让模型“炖煮”得更久，提炼音频以获得卓越的细节和自然度。

祝创作愉快！🎉 从默认设置开始，根据你的项目进行调整。厨房是你的了！