Skip to content

Commit 993feb7

Browse files
committed
update explanations for each parameter in real-time GUI
1 parent a9bf5c8 commit 993feb7

File tree

3 files changed

+33
-0
lines changed

3 files changed

+33
-0
lines changed

README-JA.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -106,6 +106,17 @@ NVIDIA RTX 3060ノートパソコンGPUでいくつかのパフォーマンス
106106
GUIでパラメータを自身のデバイスのパフォーマンスに合わせて調整できます。推論時間がブロック時間より短ければ、音声変換ストリームは正常に動作するはずです。
107107
他のGPU集約型タスク(ゲーム、動画視聴など)を実行している場合、推論速度が低下する可能性があることに注意してください。
108108

109+
リアルタイム音声変換GUIのパラメータ説明:
110+
- `Diffusion Steps` は拡散ステップ数、リアルタイム変換の場合は通常4~10で最速推論
111+
- `Inference CFG Rate` は出力に微妙な違いをもたらす、デフォルトは0.7、0.0に設定すると1.5倍の推論速度が向上
112+
- `Max Prompt Length` は最大プロンプト長、設定を低くすると推論速度が速くなるが、提示音声との類似性が低下する可能性がある
113+
- `Block Time` は推論の各オーディオ チャンクの時間長です。値が大きいほどレイテンシが長くなります。この値はブロックあたりの推論時間よりも長くする必要があることに注意してください。ハードウェアの状態に応じて設定します。
114+
- `Crossfade Length` はクロスフェード長、通常は変更しない
115+
- `Extra context (left)` は推論のための追加履歴コンテキストの時間長です。値が高いほど推論時間は長くなりますが、安定性は向上します。
116+
- `Extra context (right)` は推論のための追加未来コンテキストの時間長です。値が高いほど推論時間とレイテンシは長くなりますが、安定性は向上します。
117+
118+
アルゴリズムレイテンシーは`Block Time * 2 + Extra context (right)`で、デバイス側レイテンシーは通常100ms程度です。全体の遅延は 2 つの合計です。
119+
109120
[VB-CABLE](https://vb-audio.com/Cable/)を使用して、GUI出力ストリームを仮想マイクにルーティングすることができます。
110121

111122
*(GUIとオーディオチャンキングのロジックは[RVC](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)から修正されています。素晴らしい実装に感謝します!)*

README-ZH.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -94,6 +94,17 @@ python real-time-gui.py --checkpoint <path-to-checkpoint> --config <path-to-conf
9494

9595
你可以根据设备性能调整 GUI 中的参数,只要推理时间小于块时间,语音转换流就可以正常工作。 注意,如果你正在运行其他占用 GPU 的任务(如游戏、看视频),推理速度可能会下降。
9696

97+
实时转换界面的参数说明:
98+
- `Diffusion Steps` 是扩散步数,推荐实时转换设置为4~10;
99+
- `Inference CFG Rate` 是classifier free guidance rate,默认0.7,设置为0.0可以获得1.5x的加速;
100+
- `Max Prompt Length` 是最大音频提示长度,设置为较低值可以加快推理速度,但可能会降低与提示语音的相似度;
101+
- `Block Time` 是每块时间,值越高延迟越高,该值必须大于每块推理时间,根据硬件条件设置;
102+
- `Crossfade Length` 是交叉淡化长度,通常不需要更改;
103+
- `Extra context (left)` 是推理的额外上下文,设置为较高值可以增加稳定性,但会增加每块推理时间;
104+
- `Extra context (right)` 是推理的额外上下文,设置为较高值可以增加稳定性,但会增加每块推理时间以及延迟;
105+
106+
算法延迟大约为 `Block Time * 2 + Extra context (right)`,设备侧延迟通常为100ms左右。总体延迟为两者之和。
107+
97108
你可以使用 [VB-CABLE](https://vb-audio.com/Cable/) 将变声器输出映射到一个虚拟麦克风上,以便其它应用读取.
98109

99110
*(GUI and audio chunking logic are modified from [RVC](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI), thanks for their brilliant implementation!)*

README.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -103,6 +103,17 @@ Some performance testing has been done on a NVIDIA RTX 3060 Laptop GPU, results
103103
You can adjust the parameters in the GUI according to your own device performance, the voice conversion stream should work well as long as Inference Time is less than Block Time.
104104
Note that inference speed may drop if you are running other GPU intensive tasks (e.g. gaming, watching videos)
105105

106+
Explanations for real-time voice conversion GUI parameters:
107+
- `Diffusion Steps` is the number of diffusion steps to use, in real-time case usually set to 4~10 for fastest inference;
108+
- `Inference CFG Rate` has subtle difference in the output, default is 0.7, set to 0.0 gains about 1.5x speed-up;
109+
- `Max Prompt Length` is the maximum length of the prompt audio, setting to a low value can speed up inference, but may reduce similarity to prompt speech;
110+
- `Block Time` is the time length of each audio chunk for inference, the higher the value, the higher the latency, note this value must be greater than the inference time per block, set according to your hardware condition;
111+
- `Crossfade Length` is the time length of crossfade between audio chunks, normally not needed to change;
112+
- `Extra context (left)` is the time length of extra history context for inference, the higher the value, the higher the inference time, but can increase stability;
113+
- `Extra context (right)` is the time length of extra future context for inference, the higher the value, the higher the inference time and latency, but can increase stability;
114+
115+
The algorithm delay is appoximately calculated as `Block Time * 2 + Extra context (right)`, device side delay is usually of ~100ms. The overall delay is the sum of the two.
116+
106117
You may wish to use [VB-CABLE](https://vb-audio.com/Cable/) to route audio from GUI output stream to a virtual microphone.
107118

108119
*(GUI and audio chunking logic are modified from [RVC](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI), thanks for their brilliant implementation!)*

0 commit comments

Comments
 (0)