中文错字检测方法及系统技术方案

技术编号:20118094 阅读:12 留言:0更新日期:2019-01-16 12:07
本发明专利技术公开了一种中文错字检测方法及系统,该方法包括:步骤S1:获取待检测文本;步骤S2:对待检测文本进行分词处理,得到分词数组,令i=1;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在bigram语言模型中的频次以及titi+1ti+2在trigram语言模型中的频次,若titi+1在bigram语言模型中的频次小于第一阈值且titi+1ti+2在trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n‑2,重复执行步骤S3,若i>n‑2,执行步骤S5;步骤S5:根据错误检测处理的结果生成修改建议列表。本发明专利技术能满足互联网大规模海量文本的实时处理需求。

Chinese Error Detection Method and System

The invention discloses a Chinese error detection method and system, which includes: acquiring the text to be detected; 2: processing the text to be detected and getting the word segmentation array so that i=1; and 6: acquiring the frequency of titi+1 in the bigram language model according to the pre-established bigram language model and the trigram language model, and titi+1ti+2 in the trigram language model. In the model, if the frequency of Ti ti+1 i n the bigram language model is less than the first threshold and the frequency of Ti ti+1ti+2 i n the trigram language model is less than the second threshold, the error detection of Ti is processed; 4: execution I = I + 1, if I < n 2, repeated execution of section 1, if I > n 2, execution of section 5; generation of a list of modification suggestions based on the results of error detection processing \u3002 The invention can meet the real-time processing requirement of large-scale massive text on the Internet.

【技术实现步骤摘要】
中文错字检测方法及系统
本专利技术涉及语言处理
,具体涉及一种中文错字检测方法及系统。
技术介绍
信息化社会下,中文书写大量通过电脑处理,中文文字可以录入到电脑的方法主要有三种:拼音输入法、五笔输入法、OCR扫描。每天通过电脑处理的中文文字数以千亿计算,各种输入法和OCR扫描会产生大量的错别字问题,包括同音字问题、多音字问题、音近字问题、形近字问题、多字、少字、词语搭配不对、历史文化常识性错误、语法搭配错误、标点符号错误等,错别字问题长期广泛存在,对人们的工作和生活带来极大影响,例如,经济合同里的错别字可能会导致巨大的商业损失,知名公众人物的错别字问题可能会影响其发展前途,高考作文里的错别字也一定会影响到学生的升学成绩,政府网站、新闻媒体里的错别字甚至会造成政府公信力的丧失。然而,目前的错别字处理方法不但复杂,而且效率低下,不能满足互联网大规模海量文本的实时处理需求。
技术实现思路
本专利技术的目的在于提供一种中文错字检测方法及系统,可以提高错字处理效率。为实现上述目的,本专利技术的技术方案提供了一种中文错字检测方法,包括:步骤S1:获取待检测文本;步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;步骤S5:根据所述错误检测处理的结果生成修改建议列表。进一步地,所述错误检测处理包括:步骤A:判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。进一步地,所述错误检测处理还包括:步骤B:对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。进一步地,所述错误检测处理还包括:步骤C:若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;步骤D:根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。进一步地,所述步骤S5包括:按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。为实现上述目的,本专利技术的技术方案还提供了一种中文错字检测系统,包括:获取模块,用于获取待检测文本;分词处理模块,用于对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;错误检测处理模块,用于根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;执行模块,用于执行i=i+1;结果生成模块,用于根据所述错误检测处理的结果生成修改建议列表。进一步地,所述错误检测处理模块包括:第一处理单元,用于判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。进一步地,所述错误检测处理模块还包括:第二处理单元,用于对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。进一步地,所述错误检测处理模块还包括:第三处理单元,用于若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;第四处理单元,用于根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。进一步地,所述结果生成模块包括:误报处理单元,用于按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;标记单元,用于去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。本专利技术提供的中文错字检测方法,可以解决现有错字检测方法计算复杂、效率低下的问题,有效提高错字处理效率,能够满足互联网大规模海量文本的实时处理需求,降低用户使用成本。附图说明图1是本专利技术实施方式提供的一种中文错字检测方法的流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。参见图1,图1是本专利技术实施方式提供的一种中文错字检测方法的流程图,该方法包括:步骤S1:获取待检测文本;步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1,开始进行错误检测流程;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;步骤S5:根据所述错误检测处理的结果生成修改建议列表。其中,在本专利技术实施方式中,所述步骤S5包括:按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。本专利技术实施方式提供的中文错字检测方法,可以解决现有错字检测方法计算复杂、效率低下的问题,有效提高错字处理效率,能够满足互联网大规模海量文本的实时处理需求,降低用户使用成本。具体地,首先进行预处理过程,包括步骤1.1~步骤1.4;步骤1.1:对GB18030中定义的汉字,机器统计其同音字;同时考虑键盘上字母布局,统计每个字的近音字,比如kai、lai、kao、lao这四个拼音在键盘布局上是非常接近的,通过上述方式构造一个汉字的“拼音混淆集”;步骤1.2:对GB18030中定义的汉字,机器统计其形近字,比如“习”、“刁”是字形接近的汉字,通过该方式构造一个汉字的“字形混淆集”;步骤1.3:对步骤1.1和步骤1.2中的字,按汉字字频排序,形成每个汉字的“单字混淆集”;步骤1.4:通过大规模爬虫抓取(如抓取中央和省级报纸、官方网站、知名商业媒体文章)、网本文档来自技高网...

【技术保护点】
1.一种中文错字检测方法,其特征在于,包括:步骤S1:获取待检测文本;步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n‑2,重复执行步骤S3,若i>n‑2,执行步骤S5;步骤S5:根据所述错误检测处理的结果生成修改建议列表。

【技术特征摘要】
1.一种中文错字检测方法,其特征在于,包括:步骤S1:获取待检测文本;步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;步骤S5:根据所述错误检测处理的结果生成修改建议列表。2.根据权利要求1所述的中文错字检测方法,其特征在于,所述错误检测处理包括:步骤A:判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。3.根据权利要求2所述的中文错字检测方法,其特征在于,所述错误检测处理还包括:步骤B:对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。4.根据权利要求3所述的中文错字检测方法,其特征在于,所述错误检测处理还包括:步骤C:若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;步骤D:根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。5.根据权利要求1所述的中文错字检测方法,其特征在于,所述步骤S5包括:按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。6.一种中文错字检测系统,其特征...

【专利技术属性】
技术研发人员:夏天刘智美龚永罡
申请(专利权)人:汇智容大北京信息技术有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1