AI工具箱安装方式
①右键下载
②百度和123网盘选择随便选择一个下载
③下载位置放到“启动器的位置\hxai\zip_files”
④右键图标解压安装到目录
⑤双击搜索完成就可以运行
版本号说明
目前该文档使用两个版本号系统,分别是 So-VITS 官方的版本号,以及本整合包的版本号。请注意不要混淆。
So-VITS 官方版本号目前为 4.1
,其下另有两个分支:4.1-Stable
以及 4.1-Latest
.
⏩4.1-Stable
是官方的稳定版本,4.1-Latest
中包含一些尚在开发的新特性。由于后者可能存在一些 BUG,因此本整合包将仅同步更新 4.1-Stable
的内容。
本整合包使用语义化版本,与 So-VITS 官方版本号独立发展。如无特殊说明,整合包的最新版本将始终与官方同步更新。您可以在更新日志中查看本整合包最新的版本说明。
更新日志(点击查看)
2023.12.27 v2.3.17
- 修复了智能音频切片在部分情况下会按照最大时长均分切片的 BUG
2023.12.15 v2.3.16
- 智能音频切片换用 Fish Audio Preprocessor
- ?新增推理可选微调声码器选项
2023.11.03 v2.3.15
- 更新了最新的 RMVPE 权重
- 新增保存 SAMI 密钥配置功能
2023.08.26 v2.3.14
- 整合火山引擎 SAMI 接口,高效分离人声
2023.08.17 v2.3.13
- 修复了模型打包工具无法使用的 BUG
- 修复了特定情况下写入配置文件不生效的 BUG
2023.08.03 v2.3.12
- 修复了启动 WebUI 时可能出现的性能计数器报错问题
- 修复了压缩模型功能无法使用的 BUG
- 修复了特定情况下无法导出 onnx 模型的 BUG
2023.07.26 v2.3.11.1
- 修复预处理缺少依赖的 BUG
2023.07.26 v2.3.11
- 新增 FCPE f0 预测器
- 新增 TINY 训练支持
- 修复了无法批量推理的 BUG
- 修复了 RMVPE 对过短音频(<0.32s)推理失效的BUG
2023.07.14 v2.3.10
- 修复了部分情况下 TTS 和批量转换无法正常推理的问题
2023.07.13 v2.3.9
- ?新增 RMVPE f0 预测器
2023.07.11 v2.3.8
- 修复了部分情况下无法以 FP32 精度训练的 BUG
- 修复了部分情况下无法正常批量推理的 BUG
2023.07.05 v2.3.7
- 新增文本转语音语速音量调整,添加全 55 种语言支持和语种自动识别(请见推理参数详解 – 关于文本转语音)
- 新增 BF16 训练支持
- 修复了部分情况下 FFmpeg 未能正确加载的 BUG
- 新增一些防炒饭机制
2023.06.24 v2.3.6
- 新增真浅扩散训练,可加快训练速度并提高浅扩散模型质量(请见训练参数详解 – 关于浅扩散)
- 新增浅扩散推理采样器和加速倍数选项
- 新增模型发布打包和安装工具(请见模型发布和安装)
- WebUI 可离线运行
2023.06.18 v2.3.5
- 新增独立目录模式管理模型(请见多模型管理)
- 优化了一些逻辑
2023.06.10 v2.3.4
- 新增 Whisper-PPG 的扩散模型训练支持和扩散底模
- 新增 4 个编码器可选项(请见训练参数详解 – 关于特征编码器)
- 新增推理输出音频格式可选项、卸载模型选项、新增一些防炒饭机制
2023.06.07 v2.3.3
- 修复了一个会导致扩散模型训练出错的 BUG
2023.06.07 v2.3.2
- 智能切片工具可指定切片长度范围,修复了部分情况下切片长度小于最小值的 BUG
- 优化了模型加载交互,可手动选择 CPU 或 CUDA 推理
- 缩减了整合包大小
2023.06.03 v2.3.1
- 修复了响度嵌入模型在特定情况下输出的音频响度无法匹配输入源的 BUG
2023.06.03 v2.3.0
- 新增 Vec768L12 的响度嵌入底模
- ?新增特征检索功能
- 新增多线程预处理功能
- 新增输入源响度包络融合、浅扩散二次编码、默认参数记忆功能
2023.05.30 v2.2.0
- 新增 Whisper-PPG 编码器可选项
- ?新增训练的响度嵌入可选项,可将模型的输出音频匹配为输入源响度,而非训练集响度
2023.05.20 v2.1.3
- 修复了训练聚类模型的BUG
- 修复了浅扩散推理时无法正确加载采样器的BUG
2023.05.20 v2.1.2
- 修复了一个会导致无法加载模型的BUG
2023.05.20 v2.1.1
- 修复了无法训练聚类模型的BUG,新增GPU训练聚类模型的可选项
- 修复了无法继续训练扩散模型的BUG
- 修复了其他的一些BUG
2023.05.19 v2.1.0
- ?新增浅扩散功能,可显著改善电音底噪问题
- 新增hubertsoft编码器底模
- 修复了一些BUG和逻辑
2023.05.15 v2.0.0
- 加入了训练时的特征编码器和f0预测器可选项
- 新增模型压缩工具,可以将模型体积无损压缩至200M左右
- 重构了部分代码,与项目仓库同步,将编码器与模型解耦
2023.05.13 v1.5.1
- 修复了一个导致无法训练的BUG
2023.05.13 v1.5.0
- 加入了推理时的f0预测器可选项
- 加入了文本转语音的部分中文方言支持(东北话、陕西话、粤语)
2023.05.12 v1.4.2
- 修复了一些无伤大雅的BUG,加入对P4显卡的识别
- 优化了一些交互逻辑
2023.05.05 v1.4.1
- 修复了一个致命BUG,会导致重新训练时无法正确备份先前的工作进度
- 修复了其他的BUG和优化了逻辑
2023.05.02 v1.4.0
- ?新增文本转语音功能(edge_TTS)
- 新增数据集智能切片小工具,无需调参数即可一键制作时长符合要求的数据集
- 修复了一些BUG
2023.04.28 v1.3.2
- 修复了特定情况下训练Vec768分支无法正确加载模型和配置文件的BUG
- 修复了其他的一些BUG
2023.04.27 v1.3.1
- 修复了Vec768-Layer12分支训练时无法正确识别说话人的BUG
- 修复了一些无关紧要的BUG
2023.04.26 v1.3.0
- ?新增Vec768-Layer12(4.0v3)分支支持,该分支在小规模测试下质量和上限均优于原版
- 新增音频批量推理功能
2023.04.25 v1.2.1
- 修复了一些BUG
- 新增f0均值滤波的过滤阈值可选项
2023.04.24 v1.2.0
- 新增多模型声线融合功能
- 新增 Onnx 批量转换
- 优化了 WebUI 界面
配置要求
- 一张支持 CUDA 的 nVIDIA 显卡,拥有至少 6G 以上显存
- Windows 10/11 系统
下载地址
完整整合包
百度网盘:
提取码:g8n4
Google Drive: https://drive.google.com/file/d/1PYrSPzIZDgat1zaxTYBACmZls8D36SBQ/view?usp=sharing
增量更新
⚠️v1.x 版本的整合包无法通过增量更新更新至 v2,请参考这里了解更新方式
⚠️v2.3.14 以前版本请直接下载完整整合包
百度网盘:
提取码:yryv
评论0