藏语声学特征模型的构建方法及系统技术方案

技术编号：25712005 阅读：22 留言：0更新日期：2020-09-23 02:58

本发明专利技术实施例提供一种藏语声学特征模型的构建方法。该方法包括：将与多个发音人分别对应的藏语语音训练音频转换成与多个发音人对应的音素序列；构建注意力机制编解码框架的藏语声学特征模型；将多个发音人对应的音素序列作为编码层的输入，得到各发音人身份属性的拟藏语语音特征；通过注意力机制层确定各发音人身份属性的拟藏语语音特征的注意力概率；将各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。本发明专利技术实施例还提供一种藏语声学特征模型的构建系统。本发明专利技术实施例基于注意力机制的编解码设计，可以同时训练多个发音人，实现一个模型合成多种声音。

全部详细技术资料下载

【技术实现步骤摘要】
藏语声学特征模型的构建方法及系统
本专利技术涉及语音合成领域，尤其涉及一种藏语声学特征模型的构建方法及系统。
技术介绍
语音合成是将文本转换成语音的技术，是人工智能的重要研究领域，是人际语音交互中的重要组成部分。在新闻播报、电台、站台报站以及导航中有着越来越重要的应用。藏语的总使用人数约为800万，广泛分布于国内的西藏、青海、甘肃以及云南等地，另外不丹、印度、尼泊尔和巴基斯坦等国也分布有使用藏语的人群。因此，藏语合成有着广泛的应用前景，对促进藏语地区的人经济建设、基础服务、自动化教育等均有着非常重要的意义。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：现有的藏语语音合成系统往往采用一个藏语音库训练一个合成系统，且局限于参与训练的藏语音频必须具有非常高的音质，一个模型只能合成一个发音人的音频。当新增新的发音人时，需要重复之前相同的操作，费时费力不说，更要大量的财力支持。
技术实现思路
为了至少解决现有技术中模型需要高音质，且只能合成一个发音人的音频，对于处理多发音人需要费时费财力的问题。第一方面，本专利技术实施例提供一种藏语声学特征模型的构建方法，包括：将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；...

【技术保护点】
1.一种藏语声学特征模型的构建方法，包括：/n将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；/n构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；/n将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；/n通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；/n将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。/n

【技术特征摘要】
1.一种藏语声学特征模型的构建方法，包括：
将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列；
构建注意力机制编解码框架的藏语声学特征模型，其中，所述藏语声学特征模型包括：编码层、注意力机制层以及解码层；
将所述多个发音人对应的音素序列作为所述编码层的输入，得到各发音人身份属性的拟藏语语音特征；
通过注意力机制层确定所述各发音人身份属性的拟藏语语音特征的注意力概率；
将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征。

2.根据权利要求1所述的方法，其中，所述将所述多个发音人对应的音素序列作为所述编码层的输入包括：
通过双向长短时记忆网络以及卷积层对所述音素序列附加上下文信息，以获得藏语语音特征；
对所述多个发音人的身份属性进行词嵌入处理，得到各发音人身份特征；
将所述藏语语音特征与各自对应的发音人身份特征拼接，得到各发音人身份属性的拟藏语语音特征。

3.根据权利要求1所述的方法，其中，所述将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率作为解码层的输入，输出处理后的多个发音人身份属性的藏语语音特征包括：
将所述各发音人身份属性的拟藏语语音特征以及对应的注意力概率加权求和后输入至Postnet模块和残差网络，得到发音人身份属性的藏语语音特征。

4.根据权利要求1所述的方法，其中，所述将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列包括：
对所述多个发音人分别对应的藏语语音训练音频进行音节点划分，确定所述藏语语音训练音频的音节；
将所述音节转换成罗马音格式，其中，所述音节包括：基字、上加字、下加字、前加字、后加字以及后后加字；
基于所述罗马音格式内的空格作为分隔符，确定多个发音人对应的音素序列。

5.根据权利要求1所述的方法，其中，在所述将与多个发音人分别对应的藏语语音训练音频转换成与所述多个发音人对应的音素序列之前，所述方法...

【专利技术属性】
技术研发人员：刘亚祝，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人