一种字词重复错误的自动识别方法技术

技术编号:25757146 阅读:27 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种字词重复错误的自动识别方法,其包括如下步骤:对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。本发明专利技术可快速判断识别出该重复字词是否为收录于词典中的重复字词,且能有效判断出是否为非词典但属于日常用语中的重复字词,判断识别快速、综合,实用性高。

【技术实现步骤摘要】
一种字词重复错误的自动识别方法
本专利技术涉及一种自然语言处理方法,具体涉及中文自动校对领域中字词重复错误的发现方法。
技术介绍
在大数据时代,文本数据越来越多,而文本中的错误也越来越多,其中字词重复错误(又称插入错误)。而在汉语中,有些词是可以重复出现的,比如说“研究研究”,但是有些是不能重复出现的,如“道歉道歉”、“的的”,一旦出现就是重复错误。如何自动发现文本中出现的字词重复错误,是中文文本自动校对的研究内容之一。而汉语中存在这种合理重复字词的现象,因此简单的判断重复词语会带来很多的误判,而现在大部分的中文文本自动校对中对于字词重复错误没有单独来进行处理,只是简单的利用字词的二元或三元的信息来判断是否出错。而重复出现的字词大部分都不是词典中的词,更多是一种日常用语中的常见语言现象,因此如何提供一种方法,可以来判断字词中的重复错误,且准确高效,这一问题亟待解决。
技术实现思路
专利技术目的:为了解决现有技术中的不足,本专利技术的目的是提供一种字词重复错误的自动识别方法。技术方案:为解决上述技术问题,本专利技术提供的一种字词重复错误的自动识别方法,其包括如下步骤:对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。作为优选的,所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);12)计算二元组(Wi,Wi+1)的重复结合度,为:其中:其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):其中:其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。作为优选的,所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:21)统计汉语词典中的包含重复字的词;22)并建立汉语词典重复字词库及其索引结构予以收录存储。作为优选的,所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;包括:31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′;32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。进一步优选的,所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,包括如下步骤:41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如是,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。进一步优选的,第一预设阈值α为3.0;第二预设阈值β为3.0;第三预设阈值c为3.0。优选的,所述步骤44)中,如Wi-1′Wi′Wi+1′在训练语料中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。优选的,所述步骤11)中,如果i=1本文档来自技高网...

【技术保护点】
1.一种字词重复错误的自动识别方法,其特征在于该方法包括如下步骤:/n对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;/n统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;/n基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;/n基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。/n

【技术特征摘要】
1.一种字词重复错误的自动识别方法,其特征在于该方法包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。


2.根据权利要求1所述的字词重复错误的自动识别方法,其特征在于:所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
12)计算二元组(Wi,Wi+1)的重复结合度,为:



其中:






其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):






其中:
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。


3.根据权利要求1或2所述的字词重复错误的自动识别方法,其特征在于:所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:
21)统计汉语词典中的包含重复字的词;
22)并建立汉语词典重复字词库及其索引结构予以收录存储。


4.根据权利要求3所述的字词重复错误的自动识别方法,其特征在于:所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复...

【专利技术属性】
技术研发人员:王海涛曹馨宇刘亮亮周长青
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1