一种字词重复错误的自动识别方法技术

技术编号：25757146 阅读：27 留言：0更新日期：2020-09-25 21:06

本发明专利技术公开了一种字词重复错误的自动识别方法，其包括如下步骤：对大规模训练语料分词后，统计得到训练语料中包括重复字词的二元组和三元组结构，及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤；统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤；基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤；基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵，对待查错文本中出现的重复字词进行判断的步骤。本发明专利技术可快速判断识别出该重复字词是否为收录于词典中的重复字词，且能有效判断出是否为非词典但属于日常用语中的重复字词，判断识别快速、综合，实用性高。

全部详细技术资料下载

【技术实现步骤摘要】
一种字词重复错误的自动识别方法
本专利技术涉及一种自然语言处理方法，具体涉及中文自动校对领域中字词重复错误的发现方法。
技术介绍
在大数据时代，文本数据越来越多，而文本中的错误也越来越多，其中字词重复错误(又称插入错误)。而在汉语中，有些词是可以重复出现的，比如说“研究研究”，但是有些是不能重复出现的，如“道歉道歉”、“的的”，一旦出现就是重复错误。如何自动发现文本中出现的字词重复错误，是中文文本自动校对的研究内容之一。而汉语中存在这种合理重复字词的现象，因此简单的判断重复词语会带来很多的误判，而现在大部分的中文文本自动校对中对于字词重复错误没有单独来进行处理，只是简单的利用字词的二元或三元的信息来判断是否出错。而重复出现的字词大部分都不是词典中的词，更多是一种日常用语中的常见语言现象，因此如何提供一种方法，可以来判断字词中的重复错误，且准确高效，这一问题亟待解决。
技术实现思路
专利技术目的：为了解决现有技术中的不足，本专利技术的目的是提供一种字词重复错误的自动识别方法。技术方案：为解决上述技术问题，本专利技术提供的一种字词重复错误的自动识别方法，其包括如下步骤：对大规模训练语料分词后，统计得到训练语料中包括重复字词的二元组和三元组结构，及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤；统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤；基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤；基...

【技术保护点】
1.一种字词重复错误的自动识别方法，其特征在于该方法包括如下步骤：/n对大规模训练语料分词后，统计得到训练语料中包括重复字词的二元组和三元组结构，及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤；/n统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤；/n基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤；/n基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵，对待查错文本中出现的重复字词进行判断的步骤。/n

【技术特征摘要】
1.一种字词重复错误的自动识别方法，其特征在于该方法包括如下步骤：
对大规模训练语料分词后，统计得到训练语料中包括重复字词的二元组和三元组结构，及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤；
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤；
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤；
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵，对待查错文本中出现的重复字词进行判断的步骤。

2.根据权利要求1所述的字词重复错误的自动识别方法，其特征在于：所述对大规模训练语料分词后，统计得到训练语料中包括重复字词的二元组和三元组结构，及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中，包括如下步骤：
11)扫描训练语料中的所有句子，得到所有包含重复字词的二元组及三元组，并分别统计每一元组在训练语料中出现的频次；其中：
对于训练语料中的某一句子S进行分词得到S＝W1…Wn，其中Wi为汉语词典中的词，1<＝i<＝n；
对于该句子S中，若存在i使得Wi＝Wi+1，则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2)；
12)计算二元组(Wi,Wi+1)的重复结合度，为：

其中：

其中：freq(Wi)为词Wi在训练语料中出现的频次；freq(Wi+1)为词Wi+1在训练语料中出现的频次；N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和；N为训练语料中的所有词在训练语料中出现的总频次；
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2)，对其中每一对Wi＝Wi+1，不失一般性将Wi记为W，根据其所有的左上文语境词Wi-1记为{C1,…,Cn}，和其所有的右下文语境词Wi+2记为{D1…Dn}，分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW)：

其中：
其中：freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次；freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。

3.根据权利要求1或2所述的字词重复错误的自动识别方法，其特征在于：所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中，包括：
21)统计汉语词典中的包含重复字的词；
22)并建立汉语词典重复字词库及其索引结构予以收录存储。

4.根据权利要求3所述的字词重复错误的自动识别方法，其特征在于：所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤，为：将待查错文本对应的句子进行分词，并基于汉语词典重复...

【专利技术属性】
技术研发人员：王海涛，曹馨宇，刘亮亮，周长青，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人