【技术实现步骤摘要】
增值税发票感兴趣字段检测方法、装置、电子设备和介质
[0001]本公开的实施例涉及增值税发票自动化处理
,具体涉及增值税发票感兴趣字段检测方法、装置、电子设备和介质。
技术介绍
[0002]OCR(Optical Character Recognition,光学字符识别)项目是计算机利用人工智能技术把图片上的文字转换成字符格式的文字,以便于计算机对文本进行处理和分析。OCR项目先用检测模型检测图片上的文字得到文本行坐标,再根据坐标裁剪出文本行图片然后用识别模型识别文字。
[0003]全文本识别需要检测出图片上所有的文字,然后对所有的文本行进行识别,然而在有些场景下并不需要所有的字段比如增值税发票五要素识别,验证发票的真伪只需要识别验真接口需要的五要素即可。用全文本识别的方法不仅增加关键字段提取的难度而且计算量大,大部分识别结果用不到造成计算冗余,数据标注的工作量也比只检测感兴趣字段工作量高出好几倍。
技术实现思路
[0004]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方 ...
【技术保护点】
【技术特征摘要】
1.一种增值税发票感兴趣字段检测方法,包括:获取目标待检测图像;基于所述目标待检测图像和对应的感兴趣字段检测模型,得到目标识别区域信息;基于所述目标识别区域信息,确定目标识别区域;对所述目标识别区域进行文本识别,得到识别结果。2.根据权利要求1所述的方法,其特征在于,所述获取目标待检测图像,包括:获取待检测图像;确定所述待检测图像中是否包含预设识别码;响应于确定包括,获取所述预设识别码中包含的标识信息;基于所述标识信息确定所述待检测图像是否满足预设条件;响应于确定是,将所述待检测图像是目标待检测图像。3.根据权利要求1所述的方法,其特征在于,所述感兴趣字段检测模型是通过以下步骤训练得到:获取训练样本集合,其中,训练样本包括:样本待检测图像和所述样本待检测图像对应的样本识别区域信息;将所述训练样本集合中的训练样本的样本待检测图像作为输入,将与输入的样本待检测图像对应的样本识别区域信息作为期望输出,训练得到所述感兴趣字段检测模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述目标识别区域信息,确定目标识别区域,包括:基于所述目标识别区域信息和预设条件对所述目标待检测图像的前景区域和背景区域分别进行裁剪,得到至少一个目标裁剪前景区域图片和每个目标裁剪前景区域图片对应目标裁剪背景区域图片;对所述至少一个目标裁剪前景区域图片和对应的至少一个目标裁剪背景区域图片进行缩放处理,得到大小统一的图...
【专利技术属性】
技术研发人员:陈桂安,
申请(专利权)人:平安国际融资租赁有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。