Fish Speech 是一款由 Fish Audio 开源的文本转语音(TTS)工具,支持中、英、日三国语言。它经过 15 万小时的多语种数据训练,能生成接近人类水平的自然语音。其最新版本为 1.2,拥有以下核心优势:
核心功能与技术亮点
- 高效且低门槛:只需 4GB 显存即可运行,极大地降低了硬件要求。此外,快速的推理速度能让您在短时间内获得所需的语音输出,提升了整体使用体验。
- 支持多种模型:集成了包括 VITS2、Bert-VITS2、GPT-VITS 在内的多种语音生成模型,让您可以根据需求灵活选择,以达到最佳的语音合成效果。
- 便捷的语音克隆:用户只需上传一段语音样本,Fish Speech 就能通过深度学习技术快速模仿并克隆该语音的特征,无需复杂的训练过程,非常适合个性化应用。
- 高度可定制化:支持 LORA 微调技术,让您可以对模型进行精细调整,以适应特定的语音风格或表达方式,提供更大的创作空间。
- 易于上手:设计注重用户体验,简化了安装和配置流程。即使您不具备深厚的技术背景,也能通过一键启动程序快速开始使用。
无论您是需要为智能助手、自动客服还是语言学习应用创建语音,Fish Speech 都能提供高效且高质量的解决方案。
Fish Speech的官网入口
- 官方项目主页:https://speech.fish.audio/
- GitHub源码库:https://github.com/fishaudio/fish-speech
- Hugging Face模型地址:https://huggingface.co/fishaudio/fish-speech-1.2
如何安装和使用Fish Speech
运行要求
- GPU 内存:4GB (用于推理)、16GB (用于微调)
- 系统:Linux、Windows
Windows配置
Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。
Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torch.compile
):
- 解压项目压缩包。
- 点击 install_env.bat 安装环境。
- 若第2步 INSTALL_TYPE=preview 则执行这一步(可跳过,此步为激活编译模型环境)
- 双击 start.bat, 进入 Fish-Speech 训练推理配置 WebUI 页面。
- (可选)双击
run_cmd.bat
进入本项目的 conda/python 命令行环境
Linux配置
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenvconda create -n fish-speech python=3.10conda activate fish-speech# 安装 pytorchpip3 install torch torchvision torchaudio# 安装 fish-speechpip3 install -e .# (Ubuntu / Debian 用户) 安装 soxapt install libsox-devshell254 Bytes© AI工具集