一种兼顾文本长度和相似度的文本纠错方法及系统技术方案

技术编号:33204498 阅读:15 留言:0更新日期:2022-04-24 00:47
本发明专利技术公开了一种兼顾文本长度和相似度的文本纠错方法及系统,通过在相关数据库中进行搜索,获取与待纠错单元最接近的长词,若长词长度处于预设长度区间,创建滑动窗口,用窗口截取文本块,并求得文本块和长词间的编辑距离,得出错误类型,以此对文本进行纠错。若长词长度大于预设长度区间,则判断相似度是否超出预设阈值,再通过文本对比算法,得出错误类型,并进行纠错。对硬件没有特殊要求,且具有非常好的系统兼容性,纠错效率高,大大缩短校对时间。可以实时、快速、便捷的添加新词来满足新词的纠错,通过设置不同领域的数据库,满足不同领域的长词纠错,且不依赖深度学习技术。且不依赖深度学习技术。且不依赖深度学习技术。

【技术实现步骤摘要】
一种兼顾文本长度和相似度的文本纠错方法及系统


[0001]本专利技术涉及搜索
,尤其是涉及一种兼顾文本长度和相似度的文本纠错方法及系统。

技术介绍

[0002]文本纠错技术通常包括两个部分:检测和纠错,属于深度学习领域分支下自然语言处理的重要课题之一。文本纠错依赖于深度学习模型来进行错误的检测,并使用复杂的计算方式进行正确字、词的召回,以此来纠正错误。这种纠错方式的计算量校大,模型较为复杂,并且纠错的整体效率较低,难以将此技术应用到国产机上。除此之外,深度学习模型一般具有领域局限性,在不同领域内,模型的性能差异非常大,需要耗费人力和机器资源去不断的进行训练以此来满足不同领域的需求。
[0003]随着社会的不断发展和进步,新的词汇,口号,固有表述等不断地被创造出来。目前的深度学习模型往往依赖于一个较大、普遍性的预训练模型,并在此基础上做适量的微调,但是随着新词的不断产生,之前的模型无法兼容新词,在短时间内又无法获得足量的训练样本去优化模型。所以,需要一种可以脱离深度学习的技术来提供纠正新产生的词汇的功能。
[0004]因此,如何提供一种脱离深度学习的技术来纠正文本错误,是本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术提供了一种兼顾文本长度和相似度的文本纠错方法,用于解决现有技术中存在的文本纠错依赖深度学习、整体纠错效率低、费时费力的技术问题。该方法包括:
[0006]获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;
[0007]在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;
[0008]基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。
[0009]优选的,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
[0010]所述长词的长度处于预设长度区间时,选择长度判定;
[0011]所述长度判定,具体为:
[0012]设置三个滑动窗口,所述三个滑动窗口长度为:
[0013]所述长词的长度减一、所述长词的长度和所述长词的长度加一;
[0014]所述三个滑动窗口分别对应代表漏字、错字和多字的错误类型;
[0015]根据所述滑动窗口长度递增顺序,依次用所述三个滑动窗口截取所述待纠错文本单元,得到相对应长度的文本块;
[0016]依次计算出所述文本块和所述长词的编辑距离,并判断所述编辑距离是否为1,若
是,则得到与所述滑动窗口对应的错误类型。
[0017]优选的,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:
[0018]所述长词的长度大于预设长度区间时,选择相似度判定;
[0019]所述相似度判定,具体为:
[0020]比较所述待纠错文本单元的长度和所述长词的长度,获得两者中最长长度;
[0021]计算所述待纠错文本单元和所述长词的相似度,
[0022]相似度=(最长长度

编辑距离)/最长长度,
[0023]其中,编辑距离为所述待纠错文本单元与所述长词之间的编辑距离;
[0024]判断所述相似度是否超出预设阈值,若是,则通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型。
[0025]优选的,通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型,具体为:
[0026]以所述长词为行,所述待纠错文本单元为列,构建矩阵;
[0027]外层循环遍历所述矩阵的行,内层循环遍历矩阵的列;
[0028]所述内层循环和外层循环中判断当前位置是否相同索引位置上的字符相同,若是,则记录当前位置为(i
now
,j
now
),并计算i
dis
=i
now

i
before
,j
dis
=j
now

j
before

[0029]若i
dis
=j
dis
≠1,则表示此处为错字的错误类型;
[0030]若i
dis
>j
dis
,则表示此处为漏字的错误类型;
[0031]若i
dis
<j
dis
,则表示此处为多字的错误类型;
[0032]其中,i
dis
为所述待纠错文本单元的差量,i
now
为所述待纠错文本单元的现在值,i
before
为所述待纠错文本单元的过去值,j
dis
为所述长词的差量,j
now
为所述长词的现在值,j
before
为所述长词的过去值。
[0033]优选的,若前面的所述滑动窗口满足判断条件时,则取消后面的所述滑动窗口截取和计算动作。
[0034]相应的,本专利技术还提供了一种兼顾文本长度和相似度的文本纠错系统,包括:
[0035]获取模块,用于获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;
[0036]搜索模块,用于在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;
[0037]判定纠错模块,用于基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。
[0038]优选的,所述判定纠错模块,还具体用于:
[0039]所述长词的长度处于预设长度区间时,选择长度判定;
[0040]所述长度判定,具体为:
[0041]设置三个滑动窗口,所述三个滑动窗口长度为:
[0042]所述长词的长度减一、所述长词的长度和所述长词的长度加一;
[0043]所述三个滑动窗口分别对应代表漏字、错字和多字的错误类型;
[0044]根据所述滑动窗口长度递增顺序,依次用所述三个滑动窗口截取所述待纠错文本
单元,得到相对应长度的文本块;
[0045]依次计算出所述文本块和所述长词的编辑距离,并判断所述编辑距离是否为1,若是,则得到与所述滑动窗口对应的错误类型。
[0046]优选的,所述判定纠错模块,还具体用于:
[0047]所述长词的长度大于预设长度区间时,选择相似度判定;
[0048]所述相似度判定,具体为:
[0049]比较所述待纠错文本单元的长度和所述长词的长度,获得两者中最长长度;
[0050]计算所述待纠错文本单元和所述长词的相似度,
[0051]相似度=(最长长度

编辑距离)/最长长度,
[0052]其中,编辑距离为所述待纠错文本单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种兼顾文本长度和相似度的文本纠错方法,其特征在于,包括:获取待纠错文本,并用标点符号将其分割开来,得到待纠错文本单元;在数据库中搜索得到与所述待纠错文本单元最接近的若干个长词;基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,根据所述错误类型,对所述待纠错文本单元进行纠错。2.根据权利要求1所述的方法,其特征在于,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:所述长词的长度处于预设长度区间时,选择长度判定;所述长度判定,具体为:设置三个滑动窗口,所述三个滑动窗口长度为:所述长词的长度减一、所述长词的长度和所述长词的长度加一;所述三个滑动窗口分别对应代表漏字、错字和多字的错误类型;根据所述滑动窗口长度递增顺序,依次用所述三个滑动窗口截取所述待纠错文本单元,得到相对应长度的文本块;依次计算出所述文本块和所述长词的编辑距离,并判断所述编辑距离是否为1,若是,则得到与所述滑动窗口对应的错误类型。3.根据权利要求1所述的方法,其特征在于,基于所述长词的长度,选择判定方法,得到所述待纠错文本单元的错误类型,具体为:所述长词的长度大于预设长度区间时,选择相似度判定;所述相似度判定,具体为:比较所述待纠错文本单元的长度和所述长词的长度,获得两者中最长长度;计算所述待纠错文本单元和所述长词的相似度,相似度=(最长长度

编辑距离)/最长长度,其中,编辑距离为所述待纠错文本单元与所述长词之间的编辑距离;判断所述相似度是否超出预设阈值,若是,则通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型。4.根据权利要求3所述的方法,其特征在于,通过文本对比法找出所述待纠错文本单元和所述长词间的差异,得到漏字、错字和多字的三种错误类型,具体为:以所述长词为行,所述待纠错文本单元为列,构建矩阵;外层循环遍历所述矩阵的行,内层循环遍历矩阵的列;所述内层循环和外层循环中判断当前位置是否相同索引位置上的字符相同,若是,则记录当前位置为(i
now
,j
now
),并计算i
dis
=i
now

i
before
,j
dis
=j
now

j
before
;若i
dis
=j
dis
≠1,则表示此处为错字的错误类型;若i
dis
>j
dis
,则表示此处为漏字的错误类型;若i
dis
<j
dis
,则表示此处为多字的错误类型;其中,i
dis
为所述待纠错文本单元的差量,i
now
为所述待纠错文本单元的现在值,i
before
为所述待纠错文本单元的过去值,j
dis
为所述长词的差量,j
now
为所述长词的现在值,j
before
为所述长词的过去值。5.根据权利要求2所述的方法,其特征在于,若前面的所述滑动窗口满足判断条件时,
...

【专利技术属性】
技术研发人员:刘学谦汪玉珠田贺锁
申请(专利权)人:北京方寸无忧科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1