···
首页
···
开发工具
···
开发入门教程
···
网址导航
···
搜索
Ctrl K
开发工具
开发入门教程
前端开发
服务器相关
Java
Python
数据库
前端网址导航
设计网址导航
AI网址导航
量化交易导航
全部
AI文案写作
AI图像绘画
AI设计
AI音视频
AI编程开发
AI开放平台
开源大模型
AI学习交流
其他工具
FunAudioLLM
FunAudioLLM 由阿里巴巴开源,其创新之处在于将 TTS 技术与大型语言模型(LLM)深度融合,旨在实现人与 LLM 之间更自然流畅的语音交互。它不仅关注高质量的语音生成,更强调语音理解和生成在 LLM 应用中的协同作用,探索下一代语音交互范式。这里特备关注的是 CosyVoice ,拥有优秀的快速语音克隆能力。
Llasa
Llasa 是一款由香港科技大学音频实验室开源的零样本语音克隆和 TTS 模型。它既支持从纯文本生成语音,也支持利用给定的参考语音进行高精度的语音克隆。Llasa 着重提升语音克隆的保真度和自然度,力求在零样本条件下实现高度逼真的音色复刻效果。如果您对语音克隆技术的质量有较高要求,Llasa 值得深入研究和应用。
F5-TTS
F5-TTS 由上海交通大学和剑桥大学联合开源,主打零样本声音克隆和实时语音合成。其推理实时率达到 0.15,意味着合成速度远超实时,能够满足对延迟敏感的应用需求。此外,F5-TTS 还支持语速控制和跨语言/方言的平滑过渡,为语音合成提供了更高的灵活性和可控性。 "实时率 0.15" 通常指 Real-Time Factor (RTF),数值越小,合成速度越快;RTF=0.15 意味着合成 1 秒钟的语音仅需 0.15 秒。
ChatTTS
专注于优化对话场景下的语音合成效果,其核心优势在于优秀的中英混合语境处理能力和多说话人模拟。它支持包括中文、英文、日文在内的六种语言配置,并能流畅自然地合成中英文混杂的文本,这对于需要处理多语言对话内容的应用场景尤其重要。多说话人功能则允许 ChatTTS 模拟不同角色的声音,为对话系统赋予更丰富的表现力。
Spark-TTS
Spark-TTS 基于大型语言模型的文本转语音模型,是一个先进的文本转语音系统,利用大型语言模型(LLM)的强大功能,实现高度准确和自然的声音合成。它被设计为高效、灵活且强大,适用于研究和生产用途。 https://github.com/SparkAudio/Spark-TTS
OuteTTS
OuteTTS (亦常被称为 Smol TTS) 基于 LLaMa 架构构建,是一款零样本语音克隆模型。其主要特点是轻巧灵活,易于部署和使用。对于希望快速尝试零样本克隆技术,但又不想使用过于复杂模型的开发者而言,OuteTTS 是一个值得尝试的入门级选择。
Spark TTS
Spark-TTS 是一种先进的文本转语音系统,它利用大型语言模型(LLM)的强大能力,实现高度准确且自然流畅的语音合成。该系统设计高效、灵活且功能强大,适用于研究和生产用途。
Fish Speech
Fish Speech 专注于中文、英文和日文的语音合成,尤其在中文语音处理方面表现出色。该项目强调其语音合成质量接近真人水平,这得益于使用约十五万小时的三语数据进行训练。如果您的应用场景以中文为主,并对语音的自然度和表现力有较高要求,Fish Speech 值得重点考察。
MaskGCT
MaskGCT 是一款完全非自回归的 TTS 模型,同样具备强大的零样本特性。它功能丰富,支持跨语言翻译配音、语音克隆、语种转换、情感控制等多种高级功能。非自回归架构使其在保证合成质量的同时,拥有更高的生成速度和效率,而多样化的功能则使其应用场景更为广泛。
IMS Toucan
IMS Toucan 以其广泛的语言支持著称,声称能够合成超过 7000 种语言的语音。这一惊人的语言覆盖范围使其成为构建全球化应用的理想选择。同时,IMS Toucan 也具备多说话人语音合成功能,能够模拟不同说话人的语音特征,提供丰富的音色选择。
Parler-TTS
Parler-TTS 着重于轻量级和风格化语音合成。它能够在指定说话人风格的前提下,生成高质量且自然的语音,并能模仿目标说话者的性别、音调、语速等个性化特征。这使得 Parler-TTS 在资源受限的设备上也能高效运行,并为语音合成赋予更丰富的个性化色彩和表现力。
Kokoro
Kokoro 是一款参数量相对较小的开源 TTS 模型,仅有 8200 万参数,并在相对较小的音频数据集上进行训练。尽管模型规模不大,Kokoro 依然展现出良好的多语言支持能力,证明了小模型在多语言 TTS 领域的潜力。如果需要在资源受限的环境中部署多语言 TTS 功能,Kokoro 或许是一个可行的选择。 https://huggingface.co/spaces/hexgrad/Kokoro-TTS
智影
腾讯智能视频在线创作平台
TTSMaker
免费文本转语音
Synthesia
人工智能视频创作平台
歌词生成
AI 自动生成歌词网站
AI 配音
微软官方文本转语音服务
LALAL.AI
分离音乐中的人声和伴奏
SadTalker
学习逼真的三维运动系数,用于风格化的音频驱动的单图像说话的脸部动画