一种印尼语的拼写纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:38096516 阅读:17 留言:0更新日期:2023-07-06 09:11
本发明专利技术公开了一种印尼语的拼写纠错方法、装置、设备及存储介质,该方法包括:根据印尼语词典对待检测的印尼语语句进行单词检测,得到错误单词;通过语义提取模型对错误单词的上下文进行语义提取,得到上下文特征向量;基于错误单词和二元印尼语统计模型,获取候选单词集合;通过encoder

【技术实现步骤摘要】
一种印尼语的拼写纠错方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种印尼语的拼写纠错方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]现有的自然语言拼写纠错技术,普遍把纠错任务视为分类任务。这类技术在训练用于拼写纠错的深度学习模型时,会事先制定一个有限的单词表,这部分单词被称为“登录词”,然后让深度学习模型学习这些单词的高维表达,从而让深度模型理解输入文本的含义。在进行纠错的时候,深度模型通过计算从登录词表中选出一个最有可能的单词作为纠错方案。这意味着这类技术将无法给出登录词表以外的单词作为纠错方案,当错误单词的正确形式是一个登录词表以外的单词,这部分拼写纠错技术将无法纠正。
[0003]而印尼语作为一种具有代表性的低资源语言,印尼语现有的语料库规模不足且数据稀疏,从而导致现有的应用于印尼语的深度学习模型只能学习到有限的印尼语单词,若错误单词的正确形式未被深度学习模型所学习,则该错误单词无法被正确纠正,造成印尼语单词拼写纠错的正确率较低。

技术实现思路

[0004]本专利技术提供一种印尼语的拼写纠错方法、装置、终端设备以及计算机可读存储介质,能够提高印尼语单词拼写纠正的正确率。
[0005]本专利技术实施例提供了一种印尼语的拼写纠错方法,包括:
[0006]获取待检测的印尼语语句,根据预设的印尼语词典对所述印尼语语句中的单词进行检测,得到所述印尼语语句中的错误单词;
[0007]通过预设的语义提取模型,对所述错误单词的上下文进行语义提取,得到所述错误单词的上下文特征向量;
[0008]基于所述错误单词和预先构建的二元印尼语统计模型,获取所述错误单词对应的候选单词集合;其中,所述候选单词集合中包括若干候选单词;
[0009]通过预先搭建的encoder

decoder框架、所述错误单词和所述上下文特征向量,计算所述候选单词集合中每一所述候选单词的第一选取概率;
[0010]根据每一所述候选单词与所述错误单词的编辑距离,对每一所述候选单词的第一选取概率进行调整,得到每一所述候选单词的第二选取概率;
[0011]根据每一所述候选单词的第二选取概率,从所述候选单词集合中选择第二选取概率最大的所述候选单词作为所述错误单词的纠错单词,以对所述错误单词进行纠正。
[0012]作为上述方案的改进,所述基于所述错误单词和预先构建的二元印尼语统计模型,获取所述错误单词对应的候选单词集合,包括:
[0013]获取与所述错误单词编辑距离小于预设阈值的单词,以构成第一候选单词子集;
[0014]获取所述错误单词在所述印尼语语句中的前一个单词和后一个单词;
[0015]将所述错误单词的前一个单词作为上文单词,通过预先构建的二元印尼语统计模型对所述上文单词的下一个单词进行预测,以得到第二候选单词子集;其中,所述第二候选单词子集包括所有由所述上文单词预测得到的单词;
[0016]将所述错误单词的下一个单词作为下文单词,通过预先构建的二元印尼语统计模型对所述下文单词的上一个单词进行预测,以得到第三候选单词子集;其中,所述第三候选单词子集包括所有由所述下文单词预测得到的单词;
[0017]对所述第一候选单词子集、所述第二候选单词子集和所述第三候选单词子集取交集,得到所述错误单词对应的候选单词集合;其中,所述候选单词集合中的单词为候选单词。
[0018]作为上述方案的改进,所述encoder

decoder框架由编码器、解码器和注意力层构成;
[0019]则,所述通过预先搭建的encoder

decoder框架、所述错误单词和所述上下文特征向量,计算所述候选单词集合中每一所述候选单词的第一选取概率,包括:
[0020]将所述错误单词逐字符输入至所述encoder

decoder框架的编码器中进行编码,得到所述错误单词的第i个字符的隐藏特征向量和最后时刻输出的上下文条件向量;其中,i大于或等于0;
[0021]将所述错误单词的上下文条件向量和所述上下文特征向量进行相加,得到所述错误单词的初始编码特征向量;
[0022]通过所述encoder

decoder框架的注意力层、所述错误单词的第i个字符的隐藏特征向量和所述错误单词的初始编码特征向量,计算所述编码器输入所述错误单词的第i个字符的注意力特征向量;
[0023]将所述错误单词的第i个字符的注意力特征向量和每一所述候选单词的第i

1个字符进行拼接,得到每一所述候选单词的第i个字符的待解码特征向量;
[0024]将每一所述候选单词的第i个字符的待解码特征向量输入至所述encoder

decoder框架的解码器中进行解码,得到每一所述候选单词的第i个字符的字符概率;
[0025]计算每一所述候选单词的所有字符的字符概率的均值,得到每一所述候选单词的第一选取概率。
[0026]作为上述方案的改进,所述根据每一所述候选单词与所述错误单词的编辑距离,对每一所述候选单词的第一选取概率进行调整,得到每一所述候选单词的第二选取概率,包括:
[0027]根据每一所述候选单词与所述错误单词的编辑距离,确定调整权重;其中,所述候选单词与所述错误单词的编辑距离和所述调整权重呈反比;
[0028]将每一所述候选单词的第一选取概率乘以对应的所述调整权重,得到每一所述候选单词的第二选取概率。
[0029]作为上述方案的改进,所述通过预设的语义提取模型,对所述错误单词的上下文进行语义提取,得到所述错误单词的上下文特征向量,包括:
[0030]对所述印尼语语句中的所述错误单词进行遮掩,得到待检测语句;
[0031]将所述待检测语句输入至预设的语义提取模型,对所述错误单词的上下文进行语义提取,得到所述错误单词的上下文特征向量。
[0032]作为上述方案的改进,所述语义提取模型为BERT

BiLSTM模型;
[0033]则,所述将所述待检测语句输入至预设的语义提取模型,对所述错误单词的上下文进行语义提取,得到所述错误单词的上下文特征向量,包括:
[0034]将所述待检测语句输入至预设的语义提取模型,通过所述语义提取模型中的BERT模型对所述待检测语句进行语义提取,得到第一语义特征向量;
[0035]通过所述语义提取模型中的BiLSTM层对所述第一语义特征向量进行语义提取,得到第二语义特征向量;
[0036]将所述第二语义特征向量中所述错误单词对应位置的特征,作为所述错误单词的上下文特征向量。
[0037]作为上述方案的改进,所述encoder

decoder框架的编码器的单元数为所述语义提取模型的BiLSTM层的单元数的两倍。
[0038]相应地,本专利技术另一实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种印尼语的拼写纠错方法,其特征在于,包括:获取待检测的印尼语语句,根据预设的印尼语词典对所述印尼语语句中的单词进行检测,得到所述印尼语语句中的错误单词;通过预设的语义提取模型,对所述错误单词的上下文进行语义提取,得到所述错误单词的上下文特征向量;基于所述错误单词和预先构建的二元印尼语统计模型,获取所述错误单词对应的候选单词集合;其中,所述候选单词集合中包括若干候选单词;通过预先搭建的encoder

decoder框架、所述错误单词和所述上下文特征向量,计算所述候选单词集合中每一所述候选单词的第一选取概率;根据每一所述候选单词与所述错误单词的编辑距离,对每一所述候选单词的第一选取概率进行调整,得到每一所述候选单词的第二选取概率;根据每一所述候选单词的第二选取概率,从所述候选单词集合中选择第二选取概率最大的所述候选单词作为所述错误单词的纠错单词,以对所述错误单词进行纠正。2.如权利要求1所述的印尼语的拼写纠错方法,其特征在于,所述基于所述错误单词和预先构建的二元印尼语统计模型,获取所述错误单词对应的候选单词集合,包括:获取与所述错误单词编辑距离小于预设阈值的单词,以构成第一候选单词子集;获取所述错误单词在所述印尼语语句中的前一个单词和后一个单词;将所述错误单词的前一个单词作为上文单词,通过预先构建的二元印尼语统计模型对所述上文单词的下一个单词进行预测,以得到第二候选单词子集;其中,所述第二候选单词子集包括所有由所述上文单词预测得到的单词;将所述错误单词的下一个单词作为下文单词,通过预先构建的二元印尼语统计模型对所述下文单词的上一个单词进行预测,以得到第三候选单词子集;其中,所述第三候选单词子集包括所有由所述下文单词预测得到的单词;对所述第一候选单词子集、所述第二候选单词子集和所述第三候选单词子集取交集,得到所述错误单词对应的候选单词集合;其中,所述候选单词集合中的单词为候选单词。3.如权利要求1所述的印尼语的拼写纠错方法,其特征在于,所述encoder

decoder框架由编码器、解码器和注意力层构成;则,所述通过预先搭建的encoder

decoder框架、所述错误单词和所述上下文特征向量,计算所述候选单词集合中每一所述候选单词的第一选取概率,包括:将所述错误单词逐字符输入至所述encoder

decoder框架的编码器中进行编码,得到所述错误单词的第i个字符的隐藏特征向量和最后时刻输出的上下文条件向量;其中,i大于或等于0;将所述错误单词的上下文条件向量和所述上下文特征向量进行相加,得到所述错误单词的初始编码特征向量;通过所述encoder

decoder框架的注意力层、所述错误单词的第i个字符的隐藏特征向量和所述错误单词的初始编码特征向量,计算所述编码器输入所述错误单词的第i个字符的注意力特征向量;将所述错误单词的第i个字符的注意力特征向量和每一所述候选单词的第i

1个字符进行拼接,得到每一所述候选单词的第i个字符的待解码特征向量;
将每一所述候选单词的第i个字符的待解码特征向量输入至所述encoder

decoder框架的解码器中进行解码,得到每一所述候选单词的第i个字符的字符概率;计算每一所述候选单词的所有字符的字符概率的...

【专利技术属性】
技术研发人员:蒋盛益陈晋毅林楠铠
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1