一种基于相似度进行中文文本纠错的实现方法技术

技术编号：34015802 阅读：20 留言：0更新日期：2022-07-02 15:43

本发明专利技术提供了一种基于相似度进行中文文本纠错的实现方法，其特征在于，包括如下步骤：进行词库编译；利用编译好的词库，使用字哈希对待检测文本进行标记，得到一个待检测文本对应的序列，记录id；使用双字哈希对序列进行计算处理，找出待检测文本中所有与词库相似的词，计算后得到一个疑似相似词列表；对S3中所述的疑似相似词列表中的每个词进行相似度计算，保留相似度大于70的词，计算后得疑似错误列表；纠错。本发明专利技术可以提前查找中文文本可能存在的错误，大大减少了人力成本，并且能够提高现有文本纠错的检出率和正确率，具有广泛的应用前景，还可以应用于抄袭判断，文章查重等。文章查重等。文章查重等。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度进行中文文本纠错的实现方法

[0001]本专利技术涉及文本纠错领域，具体涉及一种基于相似度进行中文文本纠错的实现方法。

技术介绍

[0002]目前，针对中文文本，错别字、敏感字都有一些相对不错的检测方案；针对错别字，有kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别；针对敏感词，采用记录敏感词数据库，然后检测匹配的方式进行检测识别。虽然错别字和敏感词检测识别的精准率和召回率有待进步，但是检测结果可以给人提供一定的参考，大大减少了人工工作量。
[0003]其中，在错别字识别方面，pycorrector是一个中文文本纠错工具。pycorrector依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。集成了上面提到的多种模型，并提供了针对多种模型的快速使用方式，比如：pycorrector集成bert检测识别错别字。但是现有的中文文本中纠错方法都不能找到所有错误。本文的方法也不能解决所有的问题，只是可以提高检出率和正确率。

技术实现思路

[0004]本专利技术的目的在于提供一种基于相似度进行中文文本纠错的实现方法,实现对现有中文文本纠错方法的检出率和正确率进行改进，更好地发现和纠正表述错误，减少文字工作者的校对工作量，提高工作效率。本专利技术的核心是一种快速的相似度计算方法，文本纠错只是一个具体的应用，除此之外，还可以应用于抄袭判断，文章查重等...

【技术保护点】

【技术特征摘要】
1.一种基于相似度进行中文文本纠错的实现方法，其特征在于，包括如下步骤：S1：进行词库编译，在词库中收录固定的表述，多字、少字、换成其它字都是错误的，使词的长度大于4个字，完成后获得一个可以进行快速检索的数据结构；S2：利用S1中编译好的词库，使用字哈希对待检测文本进行标记，得到一个待检测文本对应的序列，记录了待检测文本中每个字符对应的所有词的id，这些词都来自编译好的词库；S3：使用双字哈希对S2中所述的序列进行计算处理，找出待检测文本中所有与词库相似的词，主要依据是词库中词的字在待检测文本中出现的离散度小于3且出现次数大于词长度的50％，计算后得到一个疑似相似词列表；其中，离散度即连续出现不在正确词中的字符的个数；S4：对S3中所述的疑似相似词列表中的每个词进行相似度计算，保留相似度大于70的词，计算后得疑似错误列表；S5：纠错，过滤掉疑似错误列表中满足以下条件之一的词，余下的就是最终纠错结果：1)相似度为100的；2)相似度小于100，但其是相似为100的词的真子串。2.根据权利要求1所述的基于相似度进行中文文本纠错的实现方法，其特征在于：所述S1中，对词库编译处理流程如下：S1.1：准备工作：词集合，已完成编译的所有词；字哈希：key是字符，value是所有包含这个字符的词的id的集合；双字哈希：key是两个字符，value是同时包含...

【专利技术属性】
技术研发人员：王宁，张发雨，孟奥，党章，王伦，冯立二，吴兴龙，杨正云，
申请(专利权)人：南京优速网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人