自回归神经网络消歧模型、训练及使用方法、装置、系统制造方法及图纸

技术编号：23558946 阅读：31 留言：0更新日期：2020-03-25 04:21

本发明专利技术公开了一种自回归神经网络消歧模型、训练及使用方法、装置、系统，属于语音通信技术领域。该自回归神经网络消歧模型训练方法包括获取训练数据集和训练模型，将训练文本输入模型后，模型对输出的发音序列进行自回归，直至得到自回归神经网络消歧模型。采用此模型对多音字进行发音预测时，将包含了多音字的文本输入自回归神经网络消歧模型，模型直接输出该文本的发音序列。本发明专利技术减少了模型所需训练数据的数量和模型整体的参数数量，简化了消歧流程，解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题。

Auto regressive neural network disambiguation model, training and using method, device and system

全部详细技术资料下载

【技术实现步骤摘要】
自回归神经网络消歧模型、训练及使用方法、装置、系统
本专利技术涉及语音通信
，特别是一种自回归神经网络消歧模型训练方法、模型及其应用。
技术介绍
多音字消歧技术常用于发音词典制作、语音合成（Text-To-Speech,TTS）等涉及字音转换的
由于这些领域都涉及到将文本转换为相应的发音序列，因此发音序列的准确度会对模型输出有明显影响。世界上多数语言中都存在多音字/词（即同文不同音），而在中国部分方言中，多音字现象更加广泛。对多音字/词的发音预测成为了不可避免的技术挑战。确定一个多音字的发音需要考虑相关变量的影响，同时也需要建立合适的消歧模型。根据现有相关科技文献，从相关变量（特征）的角度讲，模型的输入文本包含的语义和词性信息被普遍认为是多音字消歧中最关键的变量。从消歧模型的角度讲，使用较多的模型有基于规则的生成模型、基于统计的概率模型、深度神经网络模型等。而在中国的普通话及多数方言中存在多种语调，因而多音字的发音常受变调影响。在变调情况下，多音字的发音受该字的语义和词性信息影响较小，而更多地受...

【技术保护点】
1.一种自回归神经网络消歧模型的训练方法，其特征在于包括：/n获取训练数据集步骤，其获取第一文本及第一发音序列，将所述第一文本及所述第一发音序列整理得到所述训练数据集，所述第一发音序列与所述第一文本相互对应，所述第一文本包含有多音字；/n训练模型步骤，其将所述第一文本输入神经网络模型，所述神经网络模型输出第二发音序列，将所述第二发音序列输入所述神经网络模型进行自回归，直至所述神经网络模型输出所述第一发音序列，得到所述自回归神经网络消歧模型。/n

【技术特征摘要】
1.一种自回归神经网络消歧模型的训练方法，其特征在于包括：
获取训练数据集步骤，其获取第一文本及第一发音序列，将所述第一文本及所述第一发音序列整理得到所述训练数据集，所述第一发音序列与所述第一文本相互对应，所述第一文本包含有多音字；
训练模型步骤，其将所述第一文本输入神经网络模型，所述神经网络模型输出第二发音序列，将所述第二发音序列输入所述神经网络模型进行自回归，直至所述神经网络模型输出所述第一发音序列，得到所述自回归神经网络消歧模型。

2.如权利要求1所述的自回归神经网络消歧模型的训练方法，其特征在于，在所述第二发音序列自回归过程中，将所述神经网络模型的输出与所述第一发音序列一同输入损失函数，从而将所述损失函数的数值在所述神经网络模型中进行反向传播，此为迭代一次，重复所述迭代一次的过程直至损失函数值收敛。

3.一种自回归神经网络消歧模型，其特征在于，包括：
训练数据集获取模块，其获取第一文本及第一发音序列，并将所述第一文本及所述第一发音序列整理得到所述训练数据集，所述第一发音序列与所述第一文本相互对应，所述第一文本包含有多音字；
训练模块，其将所述第一文本输入神经网络模型，所述神经网络模型输出第二发音序列，将所述第二发音序列输入所述神经网络模型进行自回归，直至所述神经网络模型输出所述第一发音序列，得到所述自回归神经网络消歧模型。

【专利技术属性】
技术研发人员：张晴晴，张雪璐，杨金富，罗磊，马光谦，汪洋，
申请(专利权)人：北京爱数智慧科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人