【技术实现步骤摘要】
固定版面证件结构化信息提取方法、装置、设备及介质
本专利技术涉及图像处理
,特别是涉及一种固定版面证件结构化信息提取方法、装置、设备及介质。
技术介绍
目前,在特定场景下需要将身份证、行驶证、驾驶证、营业执照、票据等固定版面中的信息进行结构化信息提取,并上传到电子设备中。而人工录入不仅步骤繁杂,而且时间成本高且错误率高。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供固定版面证件结构化信息提取方法、装置、设备及介质。第一方面,为了解决上述问题,本专利技术实施例公开了一种固定版面证件结构化信息提取方法,所述方法包括:获取目标证件图像;根据所述目标证件图像的类型选择对应的实例分割模型;通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。优选的,在所述获取目标证件图像的步骤前,还包括: >根据实例分割模型对本文档来自技高网...
【技术保护点】
1.一种固定版面证件结构化信息提取方法,其特征在于,所述方法包括:/n获取目标证件图像;/n根据所述目标证件图像的类型选择对应的实例分割模型;/n通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;/n通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。/n
【技术特征摘要】 【专利技术属性】
1.一种固定版面证件结构化信息提取方法,其特征在于,所述方法包括:
获取目标证件图像;
根据所述目标证件图像的类型选择对应的实例分割模型;
通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;
通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标证件图像的步骤前,还包括:
根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本,并对所述训练样本中各图像的待识别的文本行进行实例分割标注;
选择与所述实例分割模型匹配的损失函数和优化器,并将所述损失函数和优化器与所述实例分割模型的输出层连接;其中,不同的实例分割模型匹配不同的损失函数和优化器;
通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束。
3.根据权利要求2所述的方法,其特征在于,在所述通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束的步骤后,还包括:
根据所述实例分割模型的对应的证件类型,获取属于所述证件类型的多个证件的测试样本;
用所述测试样本对已训练的所述实例分割模型进行测试,获取测试通过率;
若所述测试通过率大于预设阈值,则不再对所述实例分割模型进行训练;
若所述测试通过率小于等于所述预设阈值,则用所述训练样本继续对所述实例分割模型进行训练,直到所述实例分割模型的测试通过率大于预设阈值时结束。
4.根据权利要求1所述的方法,其特征在于,所述目标证件图像的类型是通过以下方式获得的:
从本地获取第一用户输入的与所述目标证件图像对应的类型标识;
根据所述类型标识确定目标证件图像的类型。
5.根据权利要求1所述的方法,其特征在于,所述目标证件图像的类型是通过以下方式获得的:
技术研发人员:高大帅,李健,武卫东,陈明,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。