官方服务微信:dat818 购买与出租对接

AI 飞速发展下,微软 Azure TTS 文本转语音服务超逼真

3万

主题

2

回帖

10万

积分

管理员

积分
104808
发表于 4 小时前 | 显示全部楼层 |阅读模式
    人工智能技术正迅猛进步,诸如美颜换脸、自动驾驶等多种应用已渗透进日常生活的多个领域。特别是在语音合成技术TTS上,其实用性如今同样令人惊叹。

    诸如百度云等平台均提供了文字转语音的在线服务接口,然而,这些服务合成的语音往往带有明显的“机械感”。相较之下,微软的Azure TTS文本转语音服务则表现得相当出色!它提供了丰富的声音和情感选项,能够模仿人类的抑扬顿挫,使得合成语音显得格外真实自然,不妨一探究竟……

    微软自然语音转换 - 像真人般将文本朗读出来并保存成音频

    Azure Text to,这款名为“微软文本转语音”的云服务,能够将文字内容转化为逼真的人声朗读。其显著优势在于,它运用了先进的AI神经网络技术,使得生成的语音在表现力上能够与真人相媲美。该服务能够实现人声语调与情感的精准匹配,朗读时能够生动地展现高兴、悲伤、新闻播报、客服用语、恐惧、低语等多种情感。

    语音的速度、语调、发音以及停顿均可自由调整,生成的语音效果极其自然真实,简直让人难以分辨出它是机器生成的!因此,微软的文本转语音技术几乎适用于所有场景。这项技术的朗读功能正是基于此而开发。然而,遗憾的是,这项服务需要付费,而且只有懂得编程的人才能使用,这或许让普通用户感到有些遥远。

    别着急,实际上微软已经提供了一款免费的在线演示版本,用户可以随意输入文字进行在线试听,不过需要注意的是,文字数量有上限,而且试听内容无法进行保存。于是,众多行家里手各施其技,为我们呈现了多款免费工具,例如微软的语音合成助手、Edge-TTS-、以及微软TTS下载按钮脚本插件等。这些工具能将大量文字转化为音频,并支持导出为mp3格式或录制为wav文件,便于在其他场合使用。

    ↓进入原文获取下载地址↓

    「下载地址位于原文结尾处绿色框」

    微软 TTS 朗读效果预览:

    让我们先试听几段微软的文本转语音功能演示,相信您能够明显感受到,它的表现确实远超现今大多数同类技术,情感的表现力更是达到了极致!无论是欢快的语调还是庄重的语气,都能根据不同的场合作出调整,甚至讲述鬼故事时,也能让人感受到那份恐惧。

   


    实际上,现在在抖音和快手等平台上,许多视频的音频内容都采用了微软的语音库进行合成,人们的声音听起来非常逼真,如果不特别去注意,大多数人几乎无法辨别出这是由机器合成的。

    微软语音合成助手免费版 ()

    “微软语音合成助手”是一款完全免费的电脑文字转语音软件,无需安装,体积小巧,一打开即可使用(需连接网络),其界面设计简洁明了,用户轻松上手即可熟练运用。

    它完全依赖微软的Azure TTS服务进行文字转语音,并生成逼真的语音,用户可在线试听,还可将语音保存为mp3音频文件,其效果与真人朗读几无二致!语音既真实又自然,且可调节情感风格、语速、停顿、音量等参数。

    微软的语音合成助手具备导入TXT、SRT字幕和PDF等多种格式文档文件的功能,甚至能够识别JPG、PNG格式的截图中的文字并转换为文本。尤为值得一提的是,该软件采用了分段下载与合并的方法,成功突破了单个文件转换字数不超过2500的限制。

    软件具备保存与导出编辑成果的能力,提供翻译服务,自动完成排版和标点,支持文本替换,对敏感词汇进行提醒和替换,以及SSML多人语音混编等多种高级功能,并且能够进行批量数据转换。

    浏览器插件:微软 TTS 下载音频按钮(油猴脚本)

    前面已经提及,微软的文字转语音功能在官网上以网页形式提供在线演示,用户可在浏览器中输入或粘贴文字,将其转换为语音进行试听体验。然而,该平台并未提供音频下载服务。为此,一些开发者推出了所谓的“微软 TTS 下载音频按钮”插件,使用户能够将试听到的语音内容保存为 MP3 格式的音频文件。

    这款浏览器插件完全免费,它以油猴脚本的形式提供,例如在、Edge等浏览器中安装该插件后,用户便可以安装此类脚本。一旦安装并激活,在微软TTS的网页上,除了试听按钮之外,还会如上图所示,新增一个“下载音频”的按钮。

    因此,无论是选用 Mac、Linux 系统,还是你不想下载额外的第三方应用程序,都可以通过这个脚本在浏览器中轻松实现文本到音频的转换。

    Edge-TTS- 开源录制工具

    这款免费的「edge-TTS-」开源工具,能够实现语音合成(TTS)并录制语音,最终输出为.wav格式的音频文件。此外,网络上还存在一款名为「Read Aloud by asup」的软件,其功能与前者极为相似,但目前尚不清楚它们是否由同一作者开发。

   


    Edge浏览器同样采用了微软Azure TTS技术,故而具备了一致的自然流畅的声音引擎,涵盖了晓晓、云杨等角色的声音。然而,与那两款相比,该工具在实现上需对试听声音进行“录音”,导致录制所需时间较长,并且在录制过程中还可能受到系统内其他软件产生的声音干扰。

     - 命令行文字转语音工具:

    针对有特定需求的朋友们,我们提供了一款微软TTS语音合成工具的命令行版本,该工具是基于Azure语音合成技术开发的,采用特定编程语言编写而成,其安装过程简便易行,并且支持多平台操作。

<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'>    <pre style="font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;"><code style="padding: 0.5em;margin: 15px 0px;background: rgb(40, 44, 52);border-radius: 6px;border-width: 1px;border-style: solid;border-color: rgb(234, 234, 234);font-size: 14px;display: block;line-height: 28px;overflow-x: auto;"><span style="color: rgb(97, 174, 238);">#</span><span style="color:#abb2bf;">安装 <br  />执行命令:使用pip工具,对aspeak进行安装或升级操作。</span></code><code style="padding: 0.5em;margin: 15px 0px;background: rgb(40, 44, 52);border-radius: 6px;border-width: 1px;border-style: solid;border-color: rgb(234, 234, 234);font-size: 14px;display: block;line-height: 28px;overflow-x: auto;"><span style="color: rgb(97, 174, 238);">#</span><span style="color:#abb2bf;">最简单的例子:</span><span style="color:#abb2bf;">aspeak -t "异次元软件世界,你好呀!</span><span style="color:#abb2bf;">" -l zh-CN</span></code><code style="padding: 0.5em;margin: 15px 0px;background: rgb(40, 44, 52);border-radius: 6px;border-width: 1px;border-style: solid;border-color: rgb(234, 234, 234);font-size: 14px;display: block;line-height: 28px;overflow-x: auto;"><span style="color: rgb(97, 174, 238);">#</span><span style="color:#abb2bf;">导入 .txt 文件,并转换成 .wav 音频保存<br  />使用aspeak命令,指定输入文件为input.txt,语言设置为中文简体(zh-CN),输出音频文件至output.wav。</span></code>
</pre></p>
    关于更详细的参数设置,例如如何设定语音选项,您可以查阅该工具的官方指南。至于如何具体运用此工具,那就需要大家发挥创意和进行二次开发了。

    总结:

    无论你是视频创作者、自媒体运营者抑或是职场人士,利用微软Azure TTS的语音合成技术,你不仅可以轻松录制旁白、朗读文稿、为电子书配音等,还能在业余时间自娱自乐,为日常生活和办公增添便捷与快乐。

    这几款工具均为免费提供,无论是感兴趣还是确有需求的朋友,均可下载并加以利用。不过,微软的TTS云服务接口原本是需要用户付费的,而这些免费的工具则是基于微软提供的免费演示版本开发而成的。万一微软关闭了这些免费演示,那么这些工具可能就无法继续使用了。因此,这些免费资源是有限的,希望大家能够珍惜并合理使用。

    ↓进入原文获取下载地址↓

    「下载地址位于原文结尾处绿色框」

    异次元网站:
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-5-13 20:12 , Processed in 0.076921 second(s), 17 queries .