中文错字检测方法及系统技术方案

技术编号：20118094 阅读：12 留言：0更新日期：2019-01-16 12:07

本发明专利技术公开了一种中文错字检测方法及系统，该方法包括：步骤S1：获取待检测文本；步骤S2：对待检测文本进行分词处理，得到分词数组，令i＝1；步骤S3：根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在bigram语言模型中的频次以及titi+1ti+2在trigram语言模型中的频次，若titi+1在bigram语言模型中的频次小于第一阈值且titi+1ti+2在trigram语言模型中的频次小于第二阈值，则对ti进行错误检测处理；步骤S4：执行i＝i+1，若i≤n‑2，重复执行步骤S3，若i＞n‑2，执行步骤S5；步骤S5：根据错误检测处理的结果生成修改建议列表。本发明专利技术能满足互联网大规模海量文本的实时处理需求。

Chinese Error Detection Method and System

The invention discloses a Chinese error detection method and system, which includes: acquiring the text to be detected; 2: processing the text to be detected and getting the word segmentation array so that i=1; and 6: acquiring the frequency of titi+1 in the bigram language model according to the pre-established bigram language model and the trigram language model, and titi+1ti+2 in the trigram language model. In the model, if the frequency of Ti ti+1 i n the bigram language model is less than the first threshold and the frequency of Ti ti+1ti+2 i n the trigram language model is less than the second threshold, the error detection of Ti is processed; 4: execution I = I + 1, if I < n 2, repeated execution of section 1, if I > n 2, execution of section 5; generation of a list of modification suggestions based on the results of error detection processing \u3002 The invention can meet the real-time processing requirement of large-scale massive text on the Internet.

全部详细技术资料下载

【技术实现步骤摘要】
中文错字检测方法及系统
本专利技术涉及语言处理
，具体涉及一种中文错字检测方法及系统。
技术介绍
信息化社会下，中文书写大量通过电脑处理，中文文字可以录入到电脑的方法主要有三种：拼音输入法、五笔输入法、OCR扫描。每天通过电脑处理的中文文字数以千亿计算，各种输入法和OCR扫描会产生大量的错别字问题，包括同音字问题、多音字问题、音近字问题、形近字问题、多字、少字、词语搭配不对、历史文化常识性错误、语法搭配错误、标点符号错误等，错别字问题长期广泛存在，对人们的工作和生活带来极大影响，例如，经济合同里的错别字可能会导致巨大的商业损失，知名公众人物的错别字问题可能会影响其发展前途，高考作文里的错别字也一定会影响到学生的升学成绩，政府网站、新闻媒体里的错别字甚至会造成政府公信力的丧失。然而，目前的错别字处理方法不但复杂，而且效率低下，不能满足互联网大规模海量文本的实时处理需求。
技术实现思路
本专利技术的目的在于提供一种中文错字检测方法及系统，可以提高错字处理效率。为实现上述目的，本专利技术的技术方案提供了一种中文错字检测方法，包括：步骤S1：获取待检测文本；步骤S2：对所述待检测文本进行分词处理，得到分词数组T＝[t1，t2，t3，......，tn]，令i＝1；步骤S3：根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次，若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于...

【技术保护点】
1.一种中文错字检测方法，其特征在于，包括：步骤S1：获取待检测文本；步骤S2：对所述待检测文本进行分词处理，得到分词数组T＝[t1，t2，t3，......，tn]，令i＝1；步骤S3：根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次，若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值，则对ti进行错误检测处理；步骤S4：执行i＝i+1，若i≤n‑2，重复执行步骤S3，若i＞n‑2，执行步骤S5；步骤S5：根据所述错误检测处理的结果生成修改建议列表。

【技术特征摘要】
1.一种中文错字检测方法，其特征在于，包括：步骤S1：获取待检测文本；步骤S2：对所述待检测文本进行分词处理，得到分词数组T＝[t1，t2，t3，......，tn]，令i＝1；步骤S3：根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次，若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值，则对ti进行错误检测处理；步骤S4：执行i＝i+1，若i≤n-2，重复执行步骤S3，若i＞n-2，执行步骤S5；步骤S5：根据所述错误检测处理的结果生成修改建议列表。2.根据权利要求1所述的中文错字检测方法，其特征在于，所述错误检测处理包括：步骤A：判断ti+1与ti是否相同，若相同，则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。3.根据权利要求2所述的中文错字检测方法，其特征在于，所述错误检测处理还包括：步骤B：对ti进行局部重搭配操作，并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。4.根据权利要求3所述的中文错字检测方法，其特征在于，所述错误检测处理还包括：步骤C：若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字，则对所结合的4个字进行字或词的替换，并判断替换后的四个字是否为四字成语；步骤D：根据预设的稀有姓氏表判断ti中是否存在稀有姓氏，若存在，则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理，并对得到的分词数组进行错误检测流程。5.根据权利要求1所述的中文错字检测方法，其特征在于，所述步骤S5包括：按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报；去除误报的候选词，在所述修改建议列表中将剩余的候选词标记为错词的推荐词。6.一种中文错字检测系统，其特征...

【专利技术属性】
技术研发人员：夏天，刘智美，龚永罡，
申请(专利权)人：汇智容大北京信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人