【技术实现步骤摘要】
一种融合韵律和个人信息的中文语音合成方法
[0001]本专利技术涉及语音处理
,尤其涉及一种融合韵律和个人信息的中文语音合成方法。
技术介绍
[0002]随着手机、平板、智能家居及可穿戴设备等都开始接入语音功能,人机交互方式逐渐走入语音时代。与传统的人机交互不同的是,语音交互具有便捷性、智能性,可以使得机器具有像人一样听说读写的综合能力。语音合成是智能语音交互系统的最后一环,负责让机器说出特点文本、特定说话人的语音音频,其分为文本分析和声学模型建模两个部分。文本分析主要是对文本进行特征提取,为后端提供发音、韵律等文本相关的信息;后端的工作是基于前端提取的语言特征来进行声学建模,从而获得自然可懂的语音输出。语音合成技术经过几十年的研究,从最早通过机械组件来模拟人体发声,逐渐发展成基于单元波形拼接和统计参数合成两个主要技术流派,虽然该两种技术模型产生的语音质量基本上满足可懂度的要求,但针对不同的语言,其模型设计方式和语言特征提取的方式也不同,需要开发人员具有较强的语言学背景,极大的限制了模型的通用性,同时复杂的组件设计导致 ...
【技术保护点】
【技术特征摘要】
1.一种融合韵律和个人信息的中文语音合成方法,其特征在于,包括如下步骤:步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。2.根据权利要求1所述的中文语音合成方法,其特征在于,在所述步骤1中,所述层次化韵律预测模型包括编码模块和多任务学习模块,所述编码模块:将输入文本输入预训练的BERT语言模型,得到文本的上下文表示,将其与输入文本对应的拼音、词法句法特征表示进行拼接,然后经多层全连接网络进行编码;所述多任务学习模块是一个层次化的基于双向门控循环网络的条件随机场模型:将文本韵律分为四层,对于每一层的韵律,采用将低层韵律预测结果和编码层输出经全连接网络转换后输入条件随机场模型BiGRU
‑
CRF预测下一层的方式实现。3.根据权利要求2所述的中文语音合成方法,其特征在于,在所述步骤2中,所述声学模型包括编码单元和解码模块,所述编码单元:将输入语句编码成上下文语义表示,在Transformer模块的基础上引入一个门控线性单元来增强对信息流的控制和三个卷积模块来建模局部信息;所述解码模块:自回归生成最终的语音特征谱图;包括一个注意力机制模块,通过注意力机制学习输入序列和输出序列的映射关系。4.根据权利要求3所述的中文语音合成方法,其特征在于,所述门控线性单元用于对信息流进行控制;所述三个卷积模块分别为两个仿Inception网络分支结构和深度可分离卷积模块;所述仿Inception网络分支结构:用于对特征层面进行多粒度融合;所述深度可分离卷积模块:用于对特征层面的深度和空间的信息进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。