欢迎光临
我们一直在努力

超越TTS:谷歌WaveNet人工智能可以讲得比真人还生动

Google已经将人工智能技术运用到了图像搜索和机器人对话等领域,甚至在围棋比赛上战翻了世界顶尖棋手。现在,该公司又将AI技术运用到了如何逼真地模仿人类语声上,包括用嘴和呼吸系统发出的“非演说”声音(non-speech sounds)。这套系统被叫做WaveNet,该神经网络可以生成语音波形元数据,并且惊人般地生动。

虽然我们早就有了非常实用的TTS(文本语音转换)系统,盲人等因此而颇为受益。但其通常先是录制一个人说各种各样的声音,然后生硬地衔接到一起(concatenative TTS)。

“参数式”文本语音转换(parametric TTS)则可通过语音编码器、合成分析和再现语音输入,但听起来还是太像机器(不够自然)。

相比之下,真人在说话的时候,会有很多更加零碎的声音/语气相助,而WaveNet则是一个可以更好地学习模仿真人说话的AI。

WaveNet能够对原始声波模式进行建模,每秒分析16000个样本,然后生成一个基于之前声音的预测模型,结果就是惊人的高仿真度——换言之,WaveNet已经能够“发出自己的声音”。

有关这项研究的更多内容,请移步至DeeMind博客(传送门)。

[编译自:Cnet]

[广告]活动入口:

买美股,上老虎 – 超低佣金,每股只需1美分

未经允许不得转载:陈丹的博客 » 超越TTS:谷歌WaveNet人工智能可以讲得比真人还生动

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址