用于语音合成的音频数据生成方法及系统技术方案

技术编号：19828983 阅读：41 留言：0更新日期：2018-12-19 17:03

本发明专利技术提供的用于语音合成的音频数据生成方法，其包含以下步骤：对文本数据中的文本特征进行提取，得到文本特征数据；通过神经网络结构对文本特征数据进行加速转化处理，将文本特征数据转化为声学特征数据；根据声学特征数据进行声音合成或选择拼接，得到音频数据。本发明专利技术，由于采用了特殊的反卷积结构，在不包含任何auto‑regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果，能够通过神经网络结构在保证声学特征预测精度的同时，减少计算延迟，减少计算资源需求，提高并发量，提升语音合成的速度，为改善人机交互体验做出贡献。

全部详细技术资料下载

【技术实现步骤摘要】
用于语音合成的音频数据生成方法及系统
本专利技术涉及人工智能领域，具体地说，涉及一种用于语音合成的音频数据生成方法及系统。
技术介绍
对于基于语音的实时人机交互系统，为了达到最优的人机交互体验，从用户结束语音发音，到机器开始发出语音回复的时间称为“应答时间”。为了达到最优的人机交互体验，这三步骤的总时间应该在600ms左右。绝大多数语音人机交互系统，其信息处理过程需要依次经过ASR-NLP-TTS三个步骤。然而目前大量高自然度的TTS接口的延迟在150ms以上，严重压缩了其他两个步骤(ASR，NLP)的处理时间，并因此限制了其他两个步骤中的信息处理的复杂程度和精度，为了改善人机交互体验，需要提升TTS即语音合成的速度。因此，本专利技术提供了一种基用于语音合成的音频数据生成方法及系统。
技术实现思路
为解决上述问题，本专利技术提供了一种用于语音合成的音频数据生成方法，所述方法包含以下步骤：对文本数据中的文本特征进行提取，得到文本特征数据；通过神经网络结构对所述文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据；根据所述声学特征数据进行声音合成或选择拼接，...

【技术保护点】
1.一种用于语音合成的音频数据生成方法，其特征在于，所述方法包含以下步骤：对文本数据中的文本特征进行提取，得到文本特征数据；通过神经网络结构对所述文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据；根据所述声学特征数据进行声音合成或选择拼接，得到音频数据。

【技术特征摘要】
1.一种用于语音合成的音频数据生成方法，其特征在于，所述方法包含以下步骤：对文本数据中的文本特征进行提取，得到文本特征数据；通过神经网络结构对所述文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据；根据所述声学特征数据进行声音合成或选择拼接，得到音频数据。2.如权利要求1所述的方法，其特征在于，还包括：通过调整模型对所述文本特征数据进行调整，得到调整后的文本特征数据，所述调整模型包含时程模型或注意力模型。3.如权利要求2所述的方法，其特征在于，通过神经网络结构对所述调整后的文本特征数据进行加速转化处理，将所述调整后的文本特征数据转化为声学特征数据的步骤，包括：对所述调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据；依据所述待融合数据的抽象度依次将多个待融合数据融合，得到融合数据；通过声学模型对所述融合数据进行声学处理，得到所述声学特征数据。4.如权利要求3所述的方法，其特征在于，对所述调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据的步骤，包含以下步骤：通过插值下采样方法、全卷积层采样方法以及扩张卷积层采样方法中的任一项或任几项的组合对所述调整后的文本特征数据进行不同时间跨度上的采样。5.如权利要求3所...

【专利技术属性】
技术研发人员：陆羽皓，马达标，
申请(专利权)人：北京光年无限科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人