Files
VoxCPM-use/docs/usage_guide.md
2025-12-11 00:12:18 +08:00

55 lines
3.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 👩‍🍳 声音大厨指南
欢迎来到 VoxCPM 厨房!按照这份食谱,烹饪出完美的生成语音。让我们开始吧。
---
## 🥚 第一步:准备基础食材(内容)
首先,选择你输入文本的方式:
### 1. 普通文本(经典模式)
- ✅ 保持“文本标准化 (Text Normalization)”开启。自然地输入文字(例如 "Hello, world! 123")。系统将使用 WeTextProcessing 库自动处理数字、缩写和标点符号。
### 2. 音素输入(原生模式)
- ❌ 关闭“文本标准化 (Text Normalization)”。输入音素文本,如 `{HH AH0 L OW1}` (英语) 或 `{ni3}{hao3}` (中文)以进行精确的发音控制。在此模式下VoxCPM 还支持对其他复杂的非标准化文本的原生理解——快来试试吧!
- **音素转换**:对于中文,音素使用拼音转换。对于英语,音素使用 CMUDict 转换。更多详细信息请参考相关文档。
---
## 🍳 第二步:选择风味(声音风格)
这是让你的音频拥有独特声音的秘制酱料。
### 1. 使用提示语音烹饪(跟随名家食谱)
- 提示语音Prompt Speech为 VoxCPM 提供所需的声学特征。说话者的音色、说话风格,甚至背景声音和氛围都将被复制。
- **为了获得干净、降噪的声音:**
- ✅ 启用“提示语音增强 (Prompt Speech Enhancement)”。这就像一个噪音过滤器,去除背景嘶嘶声和隆隆声,给你一个纯净、干净的声音克隆。但是,这将限制音频采样率为 16kHz限制了克隆质量的上限。
- **为了获得高质量音频克隆(最高 44.1kHz**
- ❌ 禁用“提示语音增强 (Prompt Speech Enhancement)”以保留所有原始音频信息,包括背景氛围,并支持高达 44.1kHz 采样率的音频克隆。
### 2. 自然烹饪(让模型即兴发挥)
- 如果没有提供参考VoxCPM 将成为一位创意大厨!通过其基础模型 MiniCPM-4 的文本智能,它会根据文本本身推断出合适的说话风格。
- **专业提示**:用任何文本挑战 VoxCPM——诗歌、歌词、戏剧独白——它可能会带来一些有趣的结果
---
## 🧂 第三步:最后的调味(微调结果)
你已经准备好上菜了!但对于想要调整口味的大厨,这里有两个关键的香料。
### CFG 值(多严格地遵循食谱)
- **默认值**:一个很好的起点。
- **声音听起来紧张或奇怪?** 降低此值。它告诉模型更加放松和即兴,非常适合富有表现力的提示。
- **需要最大的清晰度和对文本的忠实度?** 稍微调高它,让模型保持更严格的控制。
- **短句?** 考虑增加 CFG 值以获得更好的清晰度和忠实度。
- **长文本?** 考虑降低 CFG 值以提高长段落的稳定性和自然度。
### 推理步数(炖煮时间:质量与速度)
- **需要快餐?** 使用较低的数值。非常适合快速草稿和实验。
- **烹饪大餐?** 使用较高的数值。这让模型“炖煮”得更久,提炼音频以获得卓越的细节和自然度。
---
祝创作愉快!🎉 从默认设置开始,根据你的项目进行调整。厨房是你的了!