基于BiLSTM的老挝语文本正则化方法技术

技术编号：33723278 阅读：19 留言：0更新日期：2022-06-08 21:16

本发明专利技术涉及基于BiLSTM的老挝语文本正则化方法，属于自然语言处理领域。针对通用语言不可读词需要依据上下文语境推测结果，老挝语存在自己的语法结构、表达方式，以及老挝语文本正则化数据稀缺的问题，本发明专利技术提出了一种基于BiLSTM的老挝语文本正则化方法，主要包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分构成。本发明专利技术所提的方法是将文本正则化任务当作序列标注任务完成，在BiLSTM神经网络中输入标注好的文本序列，根据上下文预测正确结果，增加自注意力机制加深模型对序列语义的理解。自注意力机制加深模型对序列语义的理解。自注意力机制加深模型对序列语义的理解。

全部详细技术资料下载

【技术实现步骤摘要】
基于BiLSTM的老挝语文本正则化方法

[0001]本专利技术涉及基于BiLSTM的老挝语文本正则化方法，属于自然语言处理

技术介绍

[0002]文本正则化作为语音合成的上游任务，正则化后的序列作为语音合成的输入，致使文本预处理过程显得尤为重要。该任务通常需要大量的非规范词和正则化词的数据对来训练模型。其中富资源语言的文本正则化任务已经成熟，英语、中文、俄语等富资源语言的训练数据已经达到上亿规模，但是稀缺资源语言的文本正则化任务少有学者研究。
[0003]该任务最早可以追溯到文本到语音的合成系统MITalk，完全基于规则的正则化方式，但是基于匹配的方式难以胜任一词多义的情况，Sproat等人总结了文本正则化的难点和挑战，例如符号“％”读作百分数，货币符号“$15”读作“十五美元”，“2021”既可以读作数字“两千零一十九”或者年份“二零一九年”，“9:10”读作时间“九点十分”或比分“九比十”，“4/5”既可以表示分数，又可以表示日期，同样还可以表示比分，不同语境对不可读词的含义的确定起着至关重要的作用，而大部分不可读词表达的意思模棱两可，因此上下文是文本正则化任务中判断这类词含义的决定因素，完全基于规则的方式不足以胜任该任务，而神经网络能够通过大量的训练数据学习到不可读词与上下文语境间的关系，预测出符合语境的正则化后的词。

技术实现思路

[0004]本专利技术提供了基于BiLSTM的老挝语文本正则化方法，首次提出了老挝语文本正则化任务，解决了低资源下老挝语文本正则化面临的特定语法结...

【技术保护点】

【技术特征摘要】
1.基于BiLSTM的老挝语文本正则化方法，其特征在于：所述方法的具体步骤如下：Step1、老挝语文本正则化数据预处理：将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词；Step2、基于BiLSTM神经网络的文本正则化处理：采用序列标注的思想，将BiLSTM作为编码器，结合不可读词的上下文文本向量，并将线性层和softmax作为解码器，预测不可读词可能的标签，并在BiLSTM后接自注意力机制加深序列词间关注度，使模型更好的理解上下文语义预测标签。2.根据权利要求1所述的基于BiLSTM的老挝语文本正则化方法，其特征在于：所述Step1的具体步骤如下：Step1.1、老挝语文本数据清洗：去除老挝语文本中的乱码字符，规范标点符号表示方法；Step1.2、老挝语编码转换：老挝语Lao字体统一编码转换变成Unicode字体；Step1.3、句子长度过滤：保留老挝语句子长度小于250字符的句子，用于提升模型训练效率；Step1.4、语料标注：对老挝语文本正则化语料标注，具体包括：文本序列中的需要正则化的字符被使用
“▁”
标记，每次只标记单个字符，标记后的文本序列被分为多个序列，每个序列中只有一个字符被
“▁”
标记，标记后的字符由专业的语言专家标注对应老挝语文本，每个标注后的老挝语字符进行分类，并对每个标注后的老挝语字符进行分类，所有标注后的老挝语文本构成标签词典，标签词典大小为112；Step1.5、老挝语文本分词：对标记后的老挝语文本单个字符进行分词处理，分词前去掉被
“▁”
标记的字符。3.根据权利要...

【专利技术属性】
技术研发人员：余正涛，姜林，王剑，高盛祥，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人