请选择 进入手机版 | 继续访问电脑版
“闻声”更好的天下,StyleTTS端到端合成框架再创搜狗语音新突破
逗你玩 发表于:2021-8-17 08:58:47 复制链接 发表新帖
阅读数:131
随着社会进步和技术创新的日益加快,“黑科技”的产业运用持续加速,对人们生存的影响与改变也不断加深。

近期,业内领先的搜狗AI语音合成再突破,创新提出“StyleTTS端到端合成框架”,将语音合成技术再次向前推进一步,在准确传递信息之外,更器重个性化及情绪表达,让合成的语音更具表现力,更“逼真”。搜狗团结搜狐消息客户端于5月推出的演员柳岩同款明星“数字人”就是基于该技术的支持,实现了无缝切换河南、湖南、四川、陕西、东北等多种方言的本领。现在,该技术也为腾讯QQ欣赏器“小说AI听书”功能提供支持,助力实在现了听书、听小说的全新升级。

搜狗语音AI业内领先,帮助“闻声”更好天下

作为机器的“嘴巴”,语音合成已经被广泛应用于消息播报、小说阅读、地图导航、人机交互等诸多场景中。从2010年从前经典的统计机器学习方法,到DNN/LSTM为代表的深度神经网络,再到Tacotron/FastSpeech/Durian等具有更强建模本领的端到端模子,结合神经声码器的突破,语音合成技术的发展正在从“稳固可懂”迭代到“更高表现力和逼真度,以致媲美真人灌音的程度”。

搜狗AI语音合成有着雄厚的技术积累,2018年曾获得Blizzard Challenge语音合成寻衅赛停顿和可懂两项子使命第一名,2019年推出首个真人变声功能实现“恣意语言人声音(源)向指定语言人声音(目的)的及时变换”,显现了搜狗在语音表征学习、语音合成等范畴的多个关键性技术突破。此外,以新华社AI合成主播“新小浩”和自有形象合成主播“雅妮”为代表的搜狗数字人也已升级至“第七代”,这些AI数字人的声音真实度、表现力已可媲美真人,显现了在多模态合成范畴的行业领先性。

在此基础上,搜狗又提出了StyleTTS端到端合成框架,该框架紧张包含Encoder文本特性编码、Prosody Extractor/Predictor韵律特性编码与建模、Decoder音色建模三大模块,通过不同人(声)的韵律模子和音色模子重组搭配,可以或许实现跨发音人的风格控制合成,并拥有抑扬顿挫的韵律节奏和丰富立体的情绪表达。此外,模子还加入语言人特性编码、语种特性编码以及GAN对抗学习等经典方法,进一步提升建模本领。相较而言,传统语音合成技术的重点在于“信息的准确传递”,而搜狗AI语音合成技术除了准确传递信息,更器重个性化与情绪共鸣,合成结果也具有更高的自然度、辨识度,同时还能实现对语音转换的风格、口音、情绪等进行机动选择与控制,从而满足不同场景的需求。


“闻声”更好的天下,StyleTTS端到端合成框架再创搜狗语音新突破


(图:搜狗StyleTTS结构图)

以对腾讯QQ欣赏器“AI听书”的支持为例,区别于其他机器合成声音的机械式发音,搜狗AI合成语音节奏更分明、感情更自然,可以或许更好的解放双眼,而除了堪比真人的高保真音色,支持“方言语音”、“动漫语音”等的选择,在读书过程中,用户还可以根据场景和心情进行播单设置、语速调节等个性化操作,这些都可以或许提供更好的使用体验,帮助用户“闻声”更好的天下。

声音+产业构建,前瞻“布局”将来生存

“声音+”市场呈爆发式增长,已步入千亿量级市场。数据表现,在阅读范畴,“看”已不是阅读的唯一方式,十个人当中就超过两个人在听书;在音频范畴,有声书实现了从贡献流量到商业变现的路径打通,正在成长为喜马拉雅FM等各大音频平台的支持或主流业务;在智能硬件范畴,仅智能音箱一项,将来五年销量将突破3亿台超过PC规模……将来10 年,“声音+”整合产业规模将达到万亿美金级别。

随着智能社会的到来,声音作为最自然、最便利的人机交互方式,上接互联网、下接物联网、中心毗连人工智能,既是出口也是入口,而作为“声音+”产业的基础办法之一,语音合成孕育着一个巨大的蓝海市场。

对此,搜狗已经进行前瞻性布局和产业化落地。在AI语音合成技术方面,围绕“自然交互+知识计算”这一AI理念,搜狗不断加大投入构建技术“护城河”,持续累积领先上风;在创新性平台方面,搜狗打造了“搜狗声咖”、“搜狗AI开放平台”等,基于语音技术提供语音辨认、语音合成、语义明白、同声传译等AI服务;在产业落地方面,搜狗不仅积极推动与清华天工研究院等学术机构,与畅游、千龙网、学而思等商业机构,以致于与黄子韬、梁宁等明星和意见首脑等的合作,运用了搜狗语音技术的搜狗AI合成主播也被广泛使用于传媒、法律、金融等各行各业。

随着期间发展与科技进步,智能语音将会变得越来越遍及,得益于搜狗领先的人工智能技术,以及在语言范畴、声音范畴的强盛积累,搜狗语音可以或许提供一整套科学、高效的“AI语音解决方案”,为人赋能,帮助人们更好的进行“有声创作”、帮助各种机构更好的提供“有声服务”,从根本上推动“声音产业”和“人工智能产业”的发展,从这个意义上来说,其将来发展具有广阔的空间。
返回列表 使用道具 举报
条评论
avatar
您需要登录后才可以回帖 登录 | 立即注册
高级