文本处理方法和装置制造方法及图纸

技术编号:19178654 阅读:34 留言:0更新日期:2018-10-17 00:36
本发明专利技术提供了一种文本处理方法和装置,该方法包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;按照预设规则确定并删除第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理。本发明专利技术可以准确的确定纸质文本中各个文本行所对应的条目类型;并对各个文本行的内容进行格式规范化处理,从而可以得到格式统一的条目类型以及有效文本内容,提升了文本的识别准确率,并简化了文本识别流程。

Text processing method and device

The invention provides a text processing method and device, which includes: using OCR technology to recognize the characters of the paper text to be detected by preset certificate type, determining the recognized multiple text lines, and matching each text line with the first-level keywords of each item type in the preset certificate type configuration file. Matching, the first target entry type corresponding to the first target text line matched with the first-level keyword is determined; the invalid content in the first target text line is determined and deleted according to the preset rules; and the first target text line that deletes the invalid content is latticed according to the preset text format corresponding to the corresponding first target entry type. Standardized processing. The invention can accurately determine the entry type corresponding to each text line in a paper text, and normalize the content of each text line, so as to obtain uniform entry type and effective text content, improve the accuracy of text recognition, and simplify the text recognition process.

【技术实现步骤摘要】
文本处理方法和装置
本专利技术涉及文本处理
,特别是涉及一种文本处理方法和装置。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。OCR技术能够让机器看图识字,可以实现高效的信息录入、存储和检索。OCR的应用场景,除了一些纯电子化的应用场景以外,大部分应用场景不仅要完成字符的正确识别,还需要将待识别证件中的文本内容以条目分类的方式展示给用户。因为识别结果仅仅是一长篇的文字,对用户来说没有意义,而是要将用户关心的内容进行提取,分门别类地呈现出来,从而便于用户校对。目前,针对版式比较固定的证件对象,例如身份证、行驶证、驾驶证等证件,只要识别出个别关键内容就能根据先验知识,对所有识别结果进行分类并对识别结果的合理性进行判定和修正,快速完成识别结果的结构化组织。但是对于非固定版面的证件对象,例如名片、营业执照等各类普通文本,条目(例如姓名、电话等)所在位置、文字大小、文本内容并不十分固定,使得对文本的识别结果错误率高、且识别流程复杂冗余。
技术实现思路
本专利技术提供了一种文本处理方法和装置,以解决现有技术中针对非固定版式的纸质证件进行文本识别时,所存在的识别错误率高、识别流程复杂冗余的问题。为了解决上述问题,根据本专利技术的一个方面,本专利技术公开了一种文本处理方法,包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;按照预设规则确定并删除所述第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。根据本专利技术的另一方面,本专利技术还公开了一种文本处理装置,包括:识别模块,用于采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;第一匹配模块,用于将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;第一删除模块,用于按照预设规则确定并删除所述第一目标文本行中的无效内容;第一处理模块,用于对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。与现有技术相比,本专利技术包括以下优点:本专利技术通过单独设置预设配置文件,该预设配置文件中包括预设证件类型的多个条目类型、每个条目类型的属性信息,以及每个条目类型对应的一级关键词,从而可以通过将针对预设证件类型的待检测纸质文本进行OCR识别而得到的文本行,与该预设配置文件中对应该预设证件类型的多个条目类型的一级关键词进行匹配,从而可以准确的确定各个文本行所对应的条目类型;并通过对各个文本行中的无效内容进行删除,以及按照所确定的各个条目类型的预设文本格式来对相应的各个文本行的内容进行格式规范化处理,从而可以使得使用本专利技术实施例的方法得到的文本信息包括统一格式的条目类型以及有效文本内容,提升了文本的识别准确率,并简化了文本识别流程。附图说明图1是本专利技术的一种文本处理方法实施例的步骤流程图;图2是本专利技术的一种纸质名片的示意图;图3是本专利技术的一种文本处理装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,示出了本专利技术的一种文本处理方法实施例的步骤流程图,具体可以包括如下步骤:步骤101,采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;其中,该预设证件类型指代版式不固定的证件,例如名片、营业执照、获奖证书、资格证书等等证件。这里以图2所示的名片为例进行文本识别。利用OCR(光学字符识别)技术可以对该名片进行字符识别,从而得到识别到的多个文本行:“演绎生活”、“新空间”、“安华名品”、“张延安”、“海西安华名品灯饰”、“地址:海西市人民中路443号”、“电话:0280-53023455302741”、“传真:0280-5303467”、“手机:13509092978”。步骤102,将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,本专利技术实施例可以在同一个框架中实现所述预设配置文件和预设规则,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求进行灵活配置。本专利技术实施例能够以关键词和规则方法作为主要实施手段,对于关键词、规则按照重要程度进行分级,并赋予它们属性,使其具备更好的针对性和排他性;此外,通过将用于条目分类的预设配置文件和用于结果修正的预设规则都放在同一个处理框架中来实现,在这个处理框架中可以灵活补充、编辑关键词和规则,使得整个组织简洁、高效。其中,该预设规则可以包括正则表达式。本专利技术实施例预先设置了配置文件,该配置文件包括多种非固定版式的证件类型(例如营业执照类型、名片类型)的证件的条目类型,其中,可以针对不同证件类型的证件分配设置相应的配置文件,其中,每种证件类型的配置文件的配置原理类似,都是针对某个类型的证件通常具有的条目类型进行配置,生成配置文件。其中,所述预设配置文件可以包括针对名片类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词(下文称:引导关键词),其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;可选地,所述预设配置文件还包括所述每个条目类型对应的二级关键词(下文称:首要关键词本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;按照预设规则确定并删除所述第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;按照预设规则确定并删除所述第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。2.根据权利要求1所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的四级关键词,当一个第一目标文本行对应多个第一目标条目类型时,所述按照预设规则确定并删除所述第一目标文本行中的无效内容之前,所述方法还包括:将对应多个第一目标条目类型的所述第一目标文本行,与所述多个第一目标条目类型中每个第一目标条目类型对应的四级关键词进行匹配,确定匹配到四级关键词数量最多的第一目标条目类型。3.根据权利要求1所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的二级关键词,所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型,所述将所述多个文本行分别与预设配置文件中每个条目类型的一级关键词进行匹配之后,所述方法还包括:确定所述多个文本行中未匹配到一级关键词的一个或多个第二目标文本行;将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配,确定所述一个或多个第二目标文本行中匹配到二级关键词的第二目标文本行所对应的第二目标条目类型;按照预设规则确定并删除所述第二目标文本行中的无效内容;对删除无效内容的第二目标文本行,按照相应第二目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第二目标文本行包括格式规范化的第二目标条目类型和格式规范化的第二目标有效内容。4.根据权利要求3所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的四级关键词,当一个第二目标文本行对应多个第二目标条目类型时,所述按照预设规则确定并删除所述第二目标文本行中的无效内容之前,所述方法还包括:将对应多个第二目标条目类型的所述第二目标文本行,与所述多个第二目标条目类型中每个第二目标条目类型对应的四级关键词进行匹配,确定匹配到四级关键词数量最多的第二目标条目类型。5.根据权利要求3所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的三级关键词,所述将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配之后,所述方法还包括:确定所述一个或多个第二目标文本行中未通过匹配到二级关键词而确定条目类型的一个或多个第三目标文本行;将所述一个或多个第三目标文本行与所述预设配置文件中的每个条目类型的三级关键词进行匹配,确定所述一个或多个第二目标文本行中匹配到三级关键词的第三目标文本行所对应的第三目标条目类型...

【专利技术属性】
技术研发人员:伍更新李健张连毅武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1