文本纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:34275031 阅读:53 留言:0更新日期:2022-07-24 16:56
本申请实施例属于人工智能领域,涉及一种文本纠错方法,包括获取目标文本,计算目标文本的特征向量,并计算目标文本的拼音特征和笔画特征;对特征向量和拼音特征进行融合,得到第一目标特征,根据第一目标特征计算同音错误概率,基于同音错误概率进行信息过滤,得到拼音过滤向量;对特征向量和笔画特征进行融合,得到第二目标特征,根据第二目标特征计算笔画错误概率,基于笔画错误概率进行信息过滤,得到笔画过滤向量;对特征向量、拼音过滤向量和笔画过滤向量进行特征融合,得到第三目标特征,输入第三目标特征至目标编码网络中,编码得到纠错文本。本申请还提供一种文本纠错装置、计算机设备及存储介质。本申请实现了对文本的精确纠错。本的精确纠错。本的精确纠错。

Text error correction method, device, computer equipment and storage medium

【技术实现步骤摘要】
文本纠错方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本纠错方法、装置、计算机设备及存储介质。

技术介绍

[0002]在文本识别过程中,经常会出现由于OCR识别,或者输入法导致的形似字或者同音字错误,例如“进入”写成了“进人”,“风景”写成了“凡景”,“哈密瓜”写成了“哈蜜瓜”等错误。除此之外,在语音识别场景中,也存在语音识别解析为形近字或音似字的问题。文本纠错任务通常用于检测输入文本中的错字并进行修正,可以很大程度上减少形似字及音似字的错误。
[0003]随着计算机技术的发展,越来越多的研究者进行了中文的文本纠错研究,例如Soft

mask Bert模型,该模型包括检测网络和纠正网络,检测网络主要利用GRU网络对输入句子进行建模,然后输出句子中每个字是错别字的概率,再利用纠正网络对错字进行更改。PLOME模型则是在输入句子的编码中融入位置编码、字符编码、拼音特征以及笔画特征,然后直接利用预训练好的BERT模型的语言模型进行纠正。Soft

mask Bert模型将文本纠错任务分成检测和纠正两个模块,虽然能达到一定的效果,但是只利用了输入文本的特征,没有加入其他特征。PLOME模型虽然加入了拼音特征以及笔画特征,但是依赖于与训练好的Bert模型效果,而且将拼音特征和笔画特征直接加进输入字符特征,很难最大程度的利用拼音特征和笔画特征。最终,导致文本纠错准确率低下的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种文本纠错方法、装置、计算机设备及存储介质,以解决文本纠错准确率低下的技术问题。
[0005]为了解决上述技术问题,本申请实施例提供一种文本纠错方法,采用了如下所述的技术方案:
[0006]获取目标文本,计算所述目标文本的特征向量,并计算所述目标文本的拼音特征和笔画特征;
[0007]对所述特征向量和所述拼音特征进行融合,得到第一目标特征,根据所述第一目标特征计算所述目标文本的同音错误概率,基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量;
[0008]对所述特征向量和所述笔画特征进行融合,得到第二目标特征,根据所述第二目标特征计算所述目标文本的笔画错误概率,基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量;
[0009]对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行特征融合,得到第三目标特征,输入所述第三目标特征至目标编码网络中,编码得到纠错文本。
[0010]进一步的,所述根据所述第一目标特征计算所述目标文本的同音错误概率的步骤
包括:
[0011]获取拼音特征门控网络,基于所述拼音特征门控网络的第一全连接层对所述第一目标特征进行映射,得到第一映射特征;
[0012]输入所述第一映射特征至所述拼音特征门控网络的第一激活层,基于所述第一激活层的激活函数对所述第一映射特征进行计算,得到所述同音错误概率。
[0013]进一步的,所述根据所述第二目标特征计算所述目标文本的笔画错误概率的步骤包括:
[0014]获取笔画特征门控网络,基于所述笔画特征门控网络的第二全连接层对所述第二目标特征进行映射,得到第二映射特征;
[0015]输入所述第二映射特征至所述笔画特征门控网络的第二激活层,基于所述第二激活层的激活函数对所述第二映射特征进行计算,得到所述笔画错误概率。
[0016]进一步的,所述基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量的步骤包括:
[0017]根据所述同音错误概率计算第一对立概率参数,将所述同音错误概率作为所述第一目标特征的第一权重值,将所述第一对立概率参数作为所述特征向量的第二权重值;
[0018]根据所述第一权重值、所述第二权重值、所述第一目标特征和所述特征向量,计算得到所述拼音过滤向量。
[0019]进一步的,所述基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量的步骤包括:
[0020]根据所述笔画错误概率计算第二对立概率参数,将所述笔画错误概率作为所述第二目标特征的第三权重值,将所述第二对立概率参数作为所述特征向量的第四权重值;
[0021]根据所述第三权重值、所述第四权重值、所述第二目标特征和所述特征向量,计算得到所述笔画过滤向量。
[0022]进一步的,所述对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行特征融合,得到第三目标特征的步骤包括:
[0023]对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行向量相加,得到融合特征;
[0024]获取第三全连接层,基于所述第三全连接层对所述融合特征进行映射计算,得到所述第三目标特征。
[0025]进一步的,所述输入所述第三目标特征至目标编码网络中,编码得到纠错文本的步骤包括:
[0026]所述目标编码网络包括多头注意力层、正则化层和前向传播层,输入所述第三目标特征至所述多头注意力层,经过所述正则化层和所述前向传播层,计算得到所述纠错文本。
[0027]为了解决上述技术问题,本申请实施例还提供一种文本纠错装置,采用了如下所述的技术方案:
[0028]获取模块,用于获取目标文本,计算所述目标文本的特征向量,并计算所述目标文本的拼音特征和笔画特征;
[0029]第一融合模块,用于对所述特征向量和所述拼音特征进行融合,得到第一目标特
征,根据所述第一目标特征计算所述目标文本的同音错误概率,基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量;
[0030]第二融合模块,用于对所述特征向量和所述笔画特征进行融合,得到第二目标特征,根据所述第二目标特征计算所述目标文本的笔画错误概率,基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量;
[0031]输出模块,用于对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行特征融合,得到第三目标特征,输入所述第三目标特征至目标编码网络中,编码得到纠错文本。
[0032]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0033]获取目标文本,计算所述目标文本的特征向量,并计算所述目标文本的拼音特征和笔画特征;
[0034]对所述特征向量和所述拼音特征进行融合,得到第一目标特征,根据所述第一目标特征计算所述目标文本的同音错误概率,基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量;
[0035]对所述特征向量和所述笔画特征进行融合,得到第二目标特征,根据所述第二目标特征计算所述目标文本的笔画错误概率,基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量;
[0036]对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行特征融合,得到第三目标特征,输入所述第三目标特征至目标编码网络中,编码得到纠错文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括下述步骤:获取目标文本,计算所述目标文本的特征向量,并计算所述目标文本的拼音特征和笔画特征;对所述特征向量和所述拼音特征进行融合,得到第一目标特征,根据所述第一目标特征计算所述目标文本的同音错误概率,基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量;对所述特征向量和所述笔画特征进行融合,得到第二目标特征,根据所述第二目标特征计算所述目标文本的笔画错误概率,基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量;对所述特征向量、所述拼音过滤向量和所述笔画过滤向量进行特征融合,得到第三目标特征,输入所述第三目标特征至目标编码网络中,编码得到纠错文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述根据所述第一目标特征计算所述目标文本的同音错误概率的步骤包括:获取拼音特征门控网络,基于所述拼音特征门控网络的第一全连接层对所述第一目标特征进行映射,得到第一映射特征;输入所述第一映射特征至所述拼音特征门控网络的第一激活层,基于所述第一激活层的激活函数对所述第一映射特征进行计算,得到所述同音错误概率。3.根据权利要求1所述的文本纠错方法,其特征在于,所述根据所述第二目标特征计算所述目标文本的笔画错误概率的步骤包括:获取笔画特征门控网络,基于所述笔画特征门控网络的第二全连接层对所述第二目标特征进行映射,得到第二映射特征;输入所述第二映射特征至所述笔画特征门控网络的第二激活层,基于所述第二激活层的激活函数对所述第二映射特征进行计算,得到所述笔画错误概率。4.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述同音错误概率对所述特征向量进行信息过滤,得到拼音过滤向量的步骤包括:根据所述同音错误概率计算第一对立概率参数,将所述同音错误概率作为所述第一目标特征的第一权重值,将所述第一对立概率参数作为所述特征向量的第二权重值;根据所述第一权重值、所述第二权重值、所述第一目标特征和所述特征向量,计算得到所述拼音过滤向量。5.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述笔画错误概率对所述特征向量进行信息过滤,得到笔画过滤向量的步骤包括:根据所述笔画错误...

【专利技术属性】
技术研发人员:黄勇其王伟张黔
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1