超越TTS：谷歌WaveNet人工智能可以讲得比真人还生动-陈丹的博客

Google已经将人工智能技术运用到了图像搜索和机器人对话等领域，甚至在围棋比赛上战翻了世界顶尖棋手。现在，该公司又将AI技术运用到了如何逼真地模仿人类语声上，包括用嘴和呼吸系统发出的“非演说”声音（non-speech sounds）。这套系统被叫做WaveNet，该神经网络可以生成语音波形元数据，并且惊人般地生动。

WaveNet compared to concatenative and parametric TTS.jpg

虽然我们早就有了非常实用的TTS（文本语音转换）系统，盲人等因此而颇为受益。但其通常先是录制一个人说各种各样的声音，然后生硬地衔接到一起（concatenative TTS）。

“参数式”文本语音转换（parametric TTS）则可通过语音编码器、合成分析和再现语音输入，但听起来还是太像机器（不够自然）。

相比之下，真人在说话的时候，会有很多更加零碎的声音/语气相助，而WaveNet则是一个可以更好地学习模仿真人说话的AI。

WaveNet能够对原始声波模式进行建模，每秒分析16000个样本，然后生成一个基于之前声音的预测模型，结果就是惊人的高仿真度——换言之，WaveNet已经能够“发出自己的声音”。

有关这项研究的更多内容，请移步至DeeMind博客（传送门）。

[编译自：Cnet]

[广告]活动入口:

买美股，上老虎 – 超低佣金，每股只需1美分

未经允许不得转载：陈丹的博客 » 超越TTS：谷歌WaveNet人工智能可以讲得比真人还生动

超越TTS：谷歌WaveNet人工智能可以讲得比真人还生动

相关推荐

评论抢沙发

相关推荐

评论 抢沙发

评论抢沙发