加入收藏   设为首页___

   百度发布全深度学习文本到语音转化系统 Deep Voice | 上海POS机办理
您现在的位置: 首页» 科技资讯» 百度发布全深度学习文本到语音转化系统 Deep Voice

百度发布全深度学习文本到语音转化系统 Deep Voice

2017年5月26日 下午1:45

百度最新发布文本到语音转化系统Deep Voice。百度称,这是一个全部由深度神经网络构建的系统,在文本到语音的转化速度上比 WaveNet 快400倍。DeepVoice

百度研究院今天发布 Deep Voice,这是一个文本到语音转化系统,完全由深度神经网络构建。

百度研究院在官方博客上写道:

目前,要搭建这样一个系统,最大的阻碍在于声频合成的速度,此前的方法一般都需要数分钟或数小时来生成几秒的语音。

我们解决了这一难题,并且证明我们能够进行实时的音频合成。在速度上,这一系统比WaveNet 参数部署要快400倍。

从文本中生成人造的语音,通常被称为文本转语音(TTS),它是许多应用,比如,语音驱动的设备、导航系统和视力障碍者设备中不可或缺的工具。从根本上说,它能让人在不需要视觉交互的情况下与技术进行互动。

现代的 TTS 系统都是基于复杂的、多步骤的处理管道,其中,每一个管道都可能会依赖于人为设计的特征和启发。由于这种复杂性,建造新的TTS 系统是非常消耗人力,而且也会非常困难的。

DeepVoice 受到传统的本文到语音的管道启发,并且采纳了相同的架构,但是,DeepVoice 使用神经网络来代替全部组件,并使用了更简单的特征。这是的我们的系统能更好地适用于新的数据库、声音和领域,而不需要任何人为的数据标注或者额外的特征设计。

DeepVoice 为真正的端到端的,且不需要复杂处理管道、不依赖于手动设计特征进行输入和预训练的语音合成奠定了基础。

我们目前的管道依然不是端到端的,它由一个音素模型和一个音频合成组件构成。

声音中的机器人声音特性产生于管道结构和音素模型,然后,声频生成组件单独可以生成更加自然的音频片段。

音频片段试听地址: http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/

深度学习以及变革了许多领域,包括计算机视觉和语音识别,并且,我们相信,文本到语音的转换现在也处在了类似的转折点上,我们非常期待深度学习社区能一起努力,并且希望能以一种可再生的细节程度,来分享我们的整个文本到语音的转化系统,进而加速这一进程。

论文:DeepVoice:Real-Time Neural Text-to-Speech

18621939580
查看表单