AIGC网址导航 - AI音视频 - 网址导航｜ PV138开发资源网

全部 AI文案写作 AI图像绘画 AI设计 AI音视频 AI编程开发 AI开放平台开源大模型 AI学习交流其他工具

FunAudioLLM

FunAudioLLM 由阿里巴巴开源，其创新之处在于将 TTS 技术与大型语言模型（LLM）深度融合，旨在实现人与 LLM 之间更自然流畅的语音交互。它不仅关注高质量的语音生成，更强调语音理解和生成在 LLM 应用中的协同作用，探索下一代语音交互范式。这里特备关注的是 CosyVoice ，拥有优秀的快速语音克隆能力。

Llasa

Llasa 是一款由香港科技大学音频实验室开源的零样本语音克隆和 TTS 模型。它既支持从纯文本生成语音，也支持利用给定的参考语音进行高精度的语音克隆。Llasa 着重提升语音克隆的保真度和自然度，力求在零样本条件下实现高度逼真的音色复刻效果。如果您对语音克隆技术的质量有较高要求，Llasa 值得深入研究和应用。

F5-TTS

F5-TTS 由上海交通大学和剑桥大学联合开源，主打零样本声音克隆和实时语音合成。其推理实时率达到 0.15，意味着合成速度远超实时，能够满足对延迟敏感的应用需求。此外，F5-TTS 还支持语速控制和跨语言/方言的平滑过渡，为语音合成提供了更高的灵活性和可控性。 "实时率 0.15" 通常指 Real-Time Factor (RTF)，数值越小，合成速度越快；RTF=0.15 意味着合成 1 秒钟的语音仅需 0.15 秒。

ChatTTS

专注于优化对话场景下的语音合成效果，其核心优势在于优秀的中英混合语境处理能力和多说话人模拟。它支持包括中文、英文、日文在内的六种语言配置，并能流畅自然地合成中英文混杂的文本，这对于需要处理多语言对话内容的应用场景尤其重要。多说话人功能则允许 ChatTTS 模拟不同角色的声音，为对话系统赋予更丰富的表现力。

Spark-TTS

Spark-TTS 基于大型语言模型的文本转语音模型,是一个先进的文本转语音系统，利用大型语言模型（LLM）的强大功能，实现高度准确和自然的声音合成。它被设计为高效、灵活且强大，适用于研究和生产用途。 https://github.com/SparkAudio/Spark-TTS

OuteTTS

OuteTTS (亦常被称为 Smol TTS) 基于 LLaMa 架构构建，是一款零样本语音克隆模型。其主要特点是轻巧灵活，易于部署和使用。对于希望快速尝试零样本克隆技术，但又不想使用过于复杂模型的开发者而言，OuteTTS 是一个值得尝试的入门级选择。

Spark TTS

Spark-TTS 是一种先进的文本转语音系统，它利用大型语言模型（LLM）的强大能力，实现高度准确且自然流畅的语音合成。该系统设计高效、灵活且功能强大，适用于研究和生产用途。

Fish Speech

Fish Speech 专注于中文、英文和日文的语音合成，尤其在中文语音处理方面表现出色。该项目强调其语音合成质量接近真人水平，这得益于使用约十五万小时的三语数据进行训练。如果您的应用场景以中文为主，并对语音的自然度和表现力有较高要求，Fish Speech 值得重点考察。

MaskGCT

MaskGCT 是一款完全非自回归的 TTS 模型，同样具备强大的零样本特性。它功能丰富，支持跨语言翻译配音、语音克隆、语种转换、情感控制等多种高级功能。非自回归架构使其在保证合成质量的同时，拥有更高的生成速度和效率，而多样化的功能则使其应用场景更为广泛。

IMS Toucan

IMS Toucan 以其广泛的语言支持著称，声称能够合成超过 7000 种语言的语音。这一惊人的语言覆盖范围使其成为构建全球化应用的理想选择。同时，IMS Toucan 也具备多说话人语音合成功能，能够模拟不同说话人的语音特征，提供丰富的音色选择。

Parler-TTS

Parler-TTS 着重于轻量级和风格化语音合成。它能够在指定说话人风格的前提下，生成高质量且自然的语音，并能模仿目标说话者的性别、音调、语速等个性化特征。这使得 Parler-TTS 在资源受限的设备上也能高效运行，并为语音合成赋予更丰富的个性化色彩和表现力。

Kokoro

Kokoro 是一款参数量相对较小的开源 TTS 模型，仅有 8200 万参数，并在相对较小的音频数据集上进行训练。尽管模型规模不大，Kokoro 依然展现出良好的多语言支持能力，证明了小模型在多语言 TTS 领域的潜力。如果需要在资源受限的环境中部署多语言 TTS 功能，Kokoro 或许是一个可行的选择。 https://huggingface.co/spaces/hexgrad/Kokoro-TTS

智影

腾讯智能视频在线创作平台

TTSMaker

免费文本转语音

Synthesia

人工智能视频创作平台

歌词生成

AI 自动生成歌词网站

AI 配音

微软官方文本转语音服务

LALAL.AI

分离音乐中的人声和伴奏

SadTalker

学习逼真的三维运动系数，用于风格化的音频驱动的单图像说话的脸部动画

© 2023 PV138 · 站点地图 · 免责声明 · 联系我们 · 问题反馈

京ICP备16004482号-1

京公网安备11010802040649号