当前位置: 首页 > 专利查询>清华大学专利>正文

一种文本数据中错误字符的检测方法、装置和设备制造方法及图纸

技术编号:18444822 阅读:43 留言:0更新日期:2018-07-14 10:20
本发明专利技术提供了一种文本数据中错误字符的检测方法、装置和设备,该方法包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本发明专利技术通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,提高了错误字符检测效率。

A method, device and device for detecting wrong characters in text data

The invention provides a method, device and equipment for the detection of incorrect characters in text data. The method includes: Statistics of the number of characters in the text data to obtain the frequent target characters in the text data to be detected, and a phase containing the target character based on the pre created error character library. The set of similar characters, in which the set of similar characters contains similar characters similar to the shape of the target character; if the number of similar characters in the text data to be detected is greater than zero and is less than the preset threshold, it is confirmed that the similar character in the text data to be detected is the wrong character. By obtaining the frequently occurring target characters in the text, and judging whether the character in the text is similar to the target character is a wrong character, the error character produced in the manual data is fully considered, and the error characters in the text data are detected effectively, and the artificial error correction is replaced. Error character detection efficiency.

【技术实现步骤摘要】
一种文本数据中错误字符的检测方法、装置和设备
本专利技术涉及文本识别
,具体涉及一种文本数据中错误字符的检测方法、装置和设备。
技术介绍
当今社会的信息化水平日新月异,我们的每次社会行为基本上都会转化为数据,并保存在数据库中。除了由计算机自动生成的日志数据、行为数据等数据之外,目前还有大量数据无法自动生成,仍需人工来录入到系统中,文本数据就是其中的典型代表。将文字录入到计算机中,是大部分人的生活和工作中都会涉及的行为,比如:维修人员会在每次服务之后填写维修检测日志;财务人员要记录每笔开支的去向和内容等。这类无法自动生成的数据为文本处理带来了一些挑战和问题。工作者在进行录入时,难免会出现纰漏,输入错误的字符,这些错别字常常是正确字符的同音字或形似字。其中,形似字是错别字的主要来源之一;计算机的字符库中有很多形状相似的字,它们的含义是完全相同的,但表示它们的编码却完全不同,例如:阿拉伯数字和英文字母有半角和全角两种形式;除了含义相同编码不同的字符对之外,还有一些含义不同形状相似的字符对,例如:字符库中有很多与阿拉伯数字“1”相似的其他字符,其中包括汉字“丨”和英文字母“I”。输入者在录入信息时,很可能会在没有明确规范时,自行选择半角或全角中某一种形式,或者误输入形状相似的字符。多份来源不同的文本数据汇集在一起之后,难免会出现多处错别字或格式不一致的情况。除了输入者的误输入之外,地区和文化的差异也会造成字符格式上的不统一;比如日本人惯用全角的数字和英文字母,而中国人惯用半角的数字和英文字母,这二者记录的文本数据聚合起来之后,就会出现半角字符和全角字符混杂在一起,大量的格式不统一而造成的文档混乱的情况。因此,错别字带来的歧义对文本数据的整理和统计造成了极大的困难。现有技术中,通常需要人工对大量日志或文本数据进行检查,来统一格式或纠正歧义字;但这样枯燥的工作是对人力资源的极大浪费,且效率较低。
技术实现思路
针对现有技术中存在的上述缺陷,本专利技术提供一种文本数据中错误字符的检测方法、装置和设备。本专利技术的一方面提供一种文本数据中错误字符的检测方法,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。其中,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。其中,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。其中,所述获取各字符之间的形状相似度的步骤具体包括:采用多个相似度计算方法分别计算各字符之间的相似度;根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。其中,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。其中,所述对字符集中各字符对应的图像数据进行尺寸归一化处理的步骤前还包括:记录各字符对应的图像数据的元信息,所述元信息包括图像数据的宽高比;相应地,采用宽高比匹配法计算各字符之间的相似度的步骤具体包括:对各字符图像数据对应的元信息中记录的宽高比进行比较,获取宽高比匹配法对应的相似度。其中,所述获取待检测文本数据中频繁出现的目标字符的步骤具体包括:对各字符的出现次数进行从大到小的排序,将排序中处于前预设比例的字符作为目标字符,和/或将出现次数大于预设次数的字符作为目标字符。本专利技术的另一方面提供一种文本数据中错误字符的检测装置,包括:统计模块,用于对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;获取模块,用于根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;确认模块,用于若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本专利技术的又一方面提供一种文本数据中错误字符的检测设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本专利技术上述方面提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本专利技术的又一方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本专利技术上述方面提供的文本数据中错误字符的检测方法,例如包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本专利技术提供的文本数据中错误字符的检测方法、装置和设备,通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,降低人工成本,提高了错误字符检测效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的文本数据中错误字符的检测方法的流程示意图;图2为本专利技术实施例提供的文本数据中错误字符的检测方法的字符尺寸归一化处理前后示意图;图3为本专利技术实施例提供的文本数据中错误字符的检测装置的结构示意图;图4为本专利技术实施例提供的文本数据中错误字符的检测设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的文本数据中错误字符的检测方本文档来自技高网
...

【技术保护点】
1.一种文本数据中错误字符的检测方法,其特征在于,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。

【技术特征摘要】
1.一种文本数据中错误字符的检测方法,其特征在于,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。2.根据权利要求1所述的方法,其特征在于,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。3.根据权利要求1所述的方法,其特征在于,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。4.根据权利要求3所述的方法,其特征在于,所述获取各字符之间的形状相似度的步骤具体包括:采用多个相似度计算方法分别计算各字符之间的相似度;根据预先对各相似度计算方法分配的权重值,以及通过各相似度计算方法得到的相似度,获取各字符之间的形状相似度。5.根据权利要求4所述的方法,其特征在于,所述多个相似度计算方法包括逐像素比较法、投影区块比较法和宽高比匹配法。6....

【专利技术属性】
技术研发人员:刘英博王建民张育萌
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1