CosyVoice3一键包,超越index-tts2, 3秒完美复刻声音!

日前,阿里通义正式开源发布两款模型,分别为语音合成模型与语音识别模型

图片[1]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

两款模型均具备较强的可操作性与应用价值。其中,语音合成模型 CosyVoice 较早前已由我方进行过介绍,该模型性能优异,我方亦曾制作过对应的一键部署工具包。

接下来,有请马总亲自为各位介绍本模型:

然后来听一段悄悄话:

显而易见,CosyVoice3 相较其前代版本具有显著提升。关于具体的提升维度及细节,敬请参阅下文说明。

Fun-CosyVoice3 大模型完成多项关键升级:

  • 首包延迟降低 50%,支持双向流式合成,可实现 “输入即发声” 的实时响应,适用于语音助手、直播配音、无障碍阅读等各类实时场景;
  • 中英混说词错误率(WER)较此前版本降低 56.4%,无论是包含专业术语、大小写混排的内容,抑或是语码转换的语句,均能达成精准且自然的发音效果;
  • 在 zero-shot TTS 评测中,内容一致性与音色相似度全面提升,复杂场景(test-hard)字符错误率(CER)相对降低 26%,已接近人类录音水准;
  • 支持 9 种通用语言、18 种中文方言及 9 种情感控制,并具备跨语种音色复刻能力:仅需一段普通话录音,即可生成粤语、日语、英语等多语种语音,且音色保持高度一致性。

请注意,本部分内容系基于此前 3.0 版本进行的升级迭代;而 3.0 版本本身亦在 2.0 版本基础上完成了多项优化升级。

关于 CosyVoice3 的介绍内容至此暂告一段落,接下来将为您说明一键运行包的使用方法。

该一键运行包的使用流程整体简洁高效:模型、软件及相关依赖已全部整合封装于包内;若您的硬件配置满足要求,即可轻松完成运行操作。

具体操作步骤如下:第一步,下载软件包。

图片[2]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

然后在本地解压,解压之后点击 启动.bat。

图片[3]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

启动之后会自动调用浏览器,并打开主界面。

3 秒极速克隆

系统主界面包含两种推理模式选项,现首先演示名为 “3 秒极速克隆” 的模式。。

按下图操作即可:

图片[4]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

输入需合成的内容

选择「3 秒极速复刻」功能

上传参考声音文件(或直接录制本人声音)

点击「生成音频」按钮

请稍作等待,基于参考声音合成的音频将很快生成。音频生成完成后将自动播放,点击页面右下角即可完成下载操作。

自然语言控制

自然语言控制,即指令控制,可通过指令对声音克隆的效果进行调控。

图片[5]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

本软件已预先设置各类指令文本,用户只需点击下拉菜单选择对应内容即可。

图片[6]-CosyVoice3 一键包:3 秒复刻声音超越 index-tts2

支持使用方言,支持采用不同语气,亦可调整语速。其余操作流程与前述 3 秒克隆功能保持一致。完成输入及选项设置后,点击 “生成音频” 按钮即可执行操作。

经测试验证,声音克隆效果表现优异,但指令控制能力相对薄弱,可能对相似度产生影响。推测闭源的 1.5B 模型或可改善此问题。

以上说明应易于理解,若仍存在理解困难,则暂无其他解决方案。

CosyVoice3一键包,超越index-tts2, 3秒完美复刻声音!-资源速享
CosyVoice3一键包,超越index-tts2, 3秒完美复刻声音!
此内容为付费资源,请付费后查看
10积分
付费资源
已售 4
© 版权声明
THE END
喜欢就支持一下吧
点赞7赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容