【技术实现步骤摘要】
本申请属于图像处理,具体涉及一种文档图像勾选框信息提取方法和装置。
技术介绍
1、近年来,随着大数据、人工智能等前沿技术的飞速发展,ocr(optical characterrecognition,光学字符识别)技术已被广泛应用于各行各业,特别以银行为代表的金融业务涉及很多文档图像数据,如身份证、银行卡、增值税发票、收据、合同等,因此ocr技术在金融业务的发展中发挥着至关重要的作用。通用ocr技术已经逐渐趋于成熟,在大多数业务场景下其识别准确率基本都达到了可实用状态,在有些场景甚至已经达到人类的识别水平。
2、通用ocr只负责将图像中所有的字符识别出来,多用于自然场景下的文字识别,而对于实际业务场景中的文档图像,除了需要识别出图像中的字符,通常还需要从这些字符中提取出业务相关的结构化信息,比如(姓名:张三)、(性别:男)、(籍贯:山东)等。
3、基于模版匹配或基于nlp(natural language processing,自然语言处理)的命名实体识别是结构化信息提取通常采用的方式,并已经取得了不错的效果,但是
...【技术保护点】
1.一种文档图像勾选框信息提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:
3.根据权利要求1或2所述的方法,其特征在于,所述步骤S5还包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤S6中“将匹配度最高的文本选项提取为所述已选中勾选框对应的文本选项”具体包括:
5.根据权利要求3所述的方法,其特征在于,在所述配置文件对多个待提取字段配置了相同的文本选项情况下,所述步骤S6中“进而由提取的文本选项根据所述配置文件对应出待提取字段”具体包括:
6.
...【技术特征摘要】
1.一种文档图像勾选框信息提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述步骤s4具体包括:
3.根据权利要求1或2所述的方法,其特征在于,所述步骤s5还包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤s6中“将匹配度最高的文本选项提取为所述已选中勾选框对应的文本选项”具体包括:
5.根据权利要求3所述的方法,其特征在于,在所述配置文件对多个待提取字段配置了相同的文本选项情况下,所述步骤s6中“进而由提取的文本选项根...
【专利技术属性】
技术研发人员:汪航,陆俊,陈嘉远,洪文焕,高丽伟,李浚昱,雷天一,
申请(专利权)人:中国邮政储蓄银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。