The invention provides a method, device and equipment for the detection of incorrect characters in text data. The method includes: Statistics of the number of characters in the text data to obtain the frequent target characters in the text data to be detected, and a phase containing the target character based on the pre created error character library. The set of similar characters, in which the set of similar characters contains similar characters similar to the shape of the target character; if the number of similar characters in the text data to be detected is greater than zero and is less than the preset threshold, it is confirmed that the similar character in the text data to be detected is the wrong character. By obtaining the frequently occurring target characters in the text, and judging whether the character in the text is similar to the target character is a wrong character, the error character produced in the manual data is fully considered, and the error characters in the text data are detected effectively, and the artificial error correction is replaced. Error character detection efficiency.
【技术实现步骤摘要】
一种文本数据中错误字符的检测方法、装置和设备
本专利技术涉及文本识别
,具体涉及一种文本数据中错误字符的检测方法、装置和设备。
技术介绍
当今社会的信息化水平日新月异,我们的每次社会行为基本上都会转化为数据,并保存在数据库中。除了由计算机自动生成的日志数据、行为数据等数据之外,目前还有大量数据无法自动生成,仍需人工来录入到系统中,文本数据就是其中的典型代表。将文字录入到计算机中,是大部分人的生活和工作中都会涉及的行为,比如:维修人员会在每次服务之后填写维修检测日志;财务人员要记录每笔开支的去向和内容等。这类无法自动生成的数据为文本处理带来了一些挑战和问题。工作者在进行录入时,难免会出现纰漏,输入错误的字符,这些错别字常常是正确字符的同音字或形似字。其中,形似字是错别字的主要来源之一;计算机的字符库中有很多形状相似的字,它们的含义是完全相同的,但表示它们的编码却完全不同,例如:阿拉伯数字和英文字母有半角和全角两种形式;除了含义相同编码不同的字符对之外,还有一些含义不同形状相似的字符对,例如:字符库中有很多与阿拉伯数字“1”相似的其他字符,其中包括汉字“丨”和英文字母“I”。输入者在录入信息时,很可能会在没有明确规范时,自行选择半角或全角中某一种形式,或者误输入形状相似的字符。多份来源不同的文本数据汇集在一起之后,难免会出现多处错别字或格式不一致的情况。除了输入者的误输入之外,地区和文化的差异也会造成字符格式上的不统一;比如日本人惯用全角的数字和英文字母,而中国人惯用半角的数字和英文字母,这二者记录的文本数据聚合起来之后,就会出现半角字符和全角字符混杂在 ...
【技术保护点】
1.一种文本数据中错误字符的检测方法,其特征在于,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。
【技术特征摘要】
1.一种文本数据中错误字符的检测方法,其特征在于,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。2.根据权利要求1所述的方法,其特征在于,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。3.根据权利要求1所述的方法,其特征在于,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。4.根据权利要求3所述的方法,其特征在于,所述获取各字符之间的形状相似度的步骤具体包括:采用多个相似度计算方法分别计算各字符之间的相似度;根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。5.根据权利要求4所述的方法,其特征在于,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。6....
【专利技术属性】
技术研发人员:刘英博,王建民,张育萌,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。