The invention provides a text processing method and device, which includes: using OCR technology to recognize the characters of the paper text to be detected by preset certificate type, determining the recognized multiple text lines, and matching each text line with the first-level keywords of each item type in the preset certificate type configuration file. Matching, the first target entry type corresponding to the first target text line matched with the first-level keyword is determined; the invalid content in the first target text line is determined and deleted according to the preset rules; and the first target text line that deletes the invalid content is latticed according to the preset text format corresponding to the corresponding first target entry type. Standardized processing. The invention can accurately determine the entry type corresponding to each text line in a paper text, and normalize the content of each text line, so as to obtain uniform entry type and effective text content, improve the accuracy of text recognition, and simplify the text recognition process.
【技术实现步骤摘要】
文本处理方法和装置
本专利技术涉及文本处理
,特别是涉及一种文本处理方法和装置。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。OCR技术能够让机器看图识字,可以实现高效的信息录入、存储和检索。OCR的应用场景,除了一些纯电子化的应用场景以外,大部分应用场景不仅要完成字符的正确识别,还需要将待识别证件中的文本内容以条目分类的方式展示给用户。因为识别结果仅仅是一长篇的文字,对用户来说没有意义,而是要将用户关心的内容进行提取,分门别类地呈现出来,从而便于用户校对。目前,针对版式比较固定的证件对象,例如身份证、行驶证、驾驶证等证件,只要识别出个别关键内容就能根据先验知识,对所有识别结果进行分类并对识别结果的合理性进行判定和修正,快速完成识别结果的结构化组织。但是对于非固定版面的证件对象,例如名片、营业执照等各类普通文本,条目(例如姓名、电话等)所在位置、文字大小、文本内容并不十分固定,使得对文本的识别结果错误率高、且识别流程复杂冗余。
技术实现思路
本专利技术提供了一种文本处理方法和装置,以解决现有技术中针对非固定版式的纸质证件进行文本识别时,所存在的识别错误率高、识别流程复杂冗余的问题。为了解决上述问题,根据本专利技术的一个方 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;按照预设规则确定并删除所述第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:采用OCR技术对预设证件类型的待检测纸质文本进行字符识别,确定识别到的多个文本行;将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配,确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型;其中,所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词,其中,所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型;按照预设规则确定并删除所述第一目标文本行中的无效内容;对删除无效内容的第一目标文本行,按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容;其中,所述预设配置文件和所述预设规则由同一个框架来实现,且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。2.根据权利要求1所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的四级关键词,当一个第一目标文本行对应多个第一目标条目类型时,所述按照预设规则确定并删除所述第一目标文本行中的无效内容之前,所述方法还包括:将对应多个第一目标条目类型的所述第一目标文本行,与所述多个第一目标条目类型中每个第一目标条目类型对应的四级关键词进行匹配,确定匹配到四级关键词数量最多的第一目标条目类型。3.根据权利要求1所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的二级关键词,所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型,所述将所述多个文本行分别与预设配置文件中每个条目类型的一级关键词进行匹配之后,所述方法还包括:确定所述多个文本行中未匹配到一级关键词的一个或多个第二目标文本行;将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配,确定所述一个或多个第二目标文本行中匹配到二级关键词的第二目标文本行所对应的第二目标条目类型;按照预设规则确定并删除所述第二目标文本行中的无效内容;对删除无效内容的第二目标文本行,按照相应第二目标条目类型所对应的预设文本格式进行格式规范化处理,其中,规范化处理后的每个第二目标文本行包括格式规范化的第二目标条目类型和格式规范化的第二目标有效内容。4.根据权利要求3所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的四级关键词,当一个第二目标文本行对应多个第二目标条目类型时,所述按照预设规则确定并删除所述第二目标文本行中的无效内容之前,所述方法还包括:将对应多个第二目标条目类型的所述第二目标文本行,与所述多个第二目标条目类型中每个第二目标条目类型对应的四级关键词进行匹配,确定匹配到四级关键词数量最多的第二目标条目类型。5.根据权利要求3所述的方法,其特征在于,所述预设配置文件还包括所述每个条目类型对应的三级关键词,所述将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配之后,所述方法还包括:确定所述一个或多个第二目标文本行中未通过匹配到二级关键词而确定条目类型的一个或多个第三目标文本行;将所述一个或多个第三目标文本行与所述预设配置文件中的每个条目类型的三级关键词进行匹配,确定所述一个或多个第二目标文本行中匹配到三级关键词的第三目标文本行所对应的第三目标条目类型...
【专利技术属性】
技术研发人员:伍更新,李健,张连毅,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。