2024.7.8 声音复刻教程,本地和在线使用,以及模型训练
AI工具箱安装方式
①右键下载
②百度和123网盘选择随便选择一个下载
③下载位置放到“启动器的位置\hxai\zip_files”
④右键图标解压安装到目录
⑤双击搜索完成就可以运行
这个可以说是目前相当能打他开源声音克隆软件了,可以超越gpt sovits 和chattts语音了
项目地址:https://github.com/fishaudio/fish-speech
语音对比地址:https://x.com/aigclink/status/1808407487600906419
有两种使用方式一个种本地使用 一种官网在线使用
官网在线使用只需要直接运行即可
官网地址:https://fish.audio/zh-CN/
本地使用下载解压运行
参数说明
Iterative Prompt Length (迭代提示长度):
用途:用于控制生成语音时每次迭代的文本长度。
影响:当文本长度较长时,可以将其分割成更小的部分,逐步进行推理,可以提高生成速度和稳定性,但可能会导致一些断句的问题。
默认值:100
Maximum tokens per batch (每个批次的最多 token 数):
用途:控制每次推理时 LLaMA 模型处理的最大 token 数。
影响:较小的批次大小可以减少内存占用,但可能会降低推理速度。
默认值:1024
Top-P:
用途:用于控制 LLaMA 模型在生成文本时选择词汇的范围,其值介于 0 到 1 之间。
影响:较高的 Top-P 值表示模型可以选择的词汇范围更广,可能会产生更丰富的语音,但可能会增加一些随机性。
默认值:0.7
Repetition Penalty (重复惩罚):
用途:用于降低 LLaMA 模型重复使用相同词语的概率。
影响:较高的重复惩罚值可以减少语音中重复词语的出现,使语音更流畅自然。
默认值:1.2
Temperature (温度):
用途:用于控制 LLaMA 模型在生成文本时的随机性。
影响:较高的温度值会增加模型的随机性,可能会生成更具创意的语音,但可能会降低语音的连贯性。
默认值:0.7
一些其他重要的参数:
Enable Reference Audio (启用参考音频): 你可以选择是否使用参考音频作为提示,来控制生成的语音的风格和音调。
Reference Text (参考文本): 如果启用了参考音频,你还可以输入参考文本,来帮助 LLaMA 模型更好地理解你想要生成的语音风格。
Batch Inference (批量推理): 可以同时生成多个语音片段,提高推理效率。
评论8