基于BiLSTM的老挝语文本正则化方法技术

技术编号:33723278 阅读:19 留言:0更新日期:2022-06-08 21:16
本发明专利技术涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理领域。针对通用语言不可读词需要依据上下文语境推测结果,老挝语存在自己的语法结构、表达方式,以及老挝语文本正则化数据稀缺的问题,本发明专利技术提出了一种基于BiLSTM的老挝语文本正则化方法,主要包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分构成。本发明专利技术所提的方法是将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解。自注意力机制加深模型对序列语义的理解。自注意力机制加深模型对序列语义的理解。

【技术实现步骤摘要】
基于BiLSTM的老挝语文本正则化方法


[0001]本专利技术涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理


技术介绍

[0002]文本正则化作为语音合成的上游任务,正则化后的序列作为语音合成的输入,致使文本预处理过程显得尤为重要。该任务通常需要大量的非规范词和正则化词的数据对来训练模型。其中富资源语言的文本正则化任务已经成熟,英语、中文、俄语等富资源语言的训练数据已经达到上亿规模,但是稀缺资源语言的文本正则化任务少有学者研究。
[0003]该任务最早可以追溯到文本到语音的合成系统MITalk,完全基于规则的正则化方式,但是基于匹配的方式难以胜任一词多义的情况,Sproat等人总结了文本正则化的难点和挑战,例如符号“%”读作百分数,货币符号“$15”读作“十五美元”,“2021”既可以读作数字“两千零一十九”或者年份“二零一九年”,“9:10”读作时间“九点十分”或比分“九比十”,“4/5”既可以表示分数,又可以表示日期,同样还可以表示比分,不同语境对不可读词的含义的确定起着至关重要的作用,而大部分不可读词表达的意思模棱两可,因此上下文是文本正则化任务中判断这类词含义的决定因素,完全基于规则的方式不足以胜任该任务,而神经网络能够通过大量的训练数据学习到不可读词与上下文语境间的关系,预测出符合语境的正则化后的词。

技术实现思路

[0004]本专利技术提供了基于BiLSTM的老挝语文本正则化方法,首次提出了老挝语文本正则化任务,解决了低资源下老挝语文本正则化面临的特定语法结构、一词多义的问题,为下游老挝语语音合成任务提供了可用的老挝语文本。
[0005]本专利技术的技术方案是:基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
[0006]Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
[0007]Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
[0008]作为本专利技术的进一步方案,所述Step1的具体步骤如下:
[0009]Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
[0010]Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
[0011]Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
[0012]Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用
“▁”
标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被
“▁”
标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
[0013]Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被
“▁”
标记的字符。
[0014]作为本专利技术的进一步方案,所述Step2的具体步骤为:
[0015]Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为:经过词嵌入表示为:为分词编码后的字符,h=12

l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为和BiLSTM输出表示为:
[0016]Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
[0017]作为本专利技术的进一步方案,所述Step2.2的具体步骤为:
[0018]Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,k
i
∈K和v
i
∈V,|q|=|K|=|V|;自注意力机制原理如下:
[0019][0020][0021]其中W
K
,W
q
和W
V
为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为其中自注意力机制输出其中
[0022]Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
[0023]本专利技术的有益效果是:本专利技术解决了老挝语文本正则化数据稀缺的问题,本专利技术包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分;本专利技术所提的方法将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解,在老挝语文本正则化任务中表现较为优异,为下游老挝语语音合成任务提供
了可用的老挝语文本。
附图说明
[0024]图1为本专利技术中的双向长短期记忆网络BiLSTM原理图;
[0025]图2为本专利技术中的自注意力机制原理图;
[0026]图3为本专利技术中的方法流程框图;
具体实施方式
[0027]实施例1:如图1

图3所示,基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
[0028]Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
[0029]Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
[0030]作为本专利技术的进一步方案,所述Step1的具体步骤如下:
[0031]Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
[0032]Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
[0033]Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BiLSTM的老挝语文本正则化方法,其特征在于:所述方法的具体步骤如下:Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。2.根据权利要求1所述的基于BiLSTM的老挝语文本正则化方法,其特征在于:所述Step1的具体步骤如下:Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用
“▁”
标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被
“▁”
标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被
“▁”
标记的字符。3.根据权利要...

【专利技术属性】
技术研发人员:余正涛姜林王剑高盛祥
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1