保险单识别方法、装置以及计算机设备制造方法及图纸

技术编号:25638056 阅读:13 留言:0更新日期:2020-09-15 21:30
本申请提供了一种保险单识别方法、装置以及计算机设备,涉及保险单识别技术领域,缓解了对于多种不同类型的保险单版面,保险单识别的准确度较低的技术问题。该方法包括:基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据;将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单图像所属的保险单类型;基于所述保险单类型对应的预设标题字段匹配所述保险单识别数据,得到待识别保险单预设标题字段识别结果,匹配所有预设标题字段,最终得到整个保险单图像的识别结果。

【技术实现步骤摘要】
保险单识别方法、装置以及计算机设备
本申请涉及文本识别
,尤其是涉及一种保险单识别方法、装置以及计算机设备。
技术介绍
目前,随着图像处理技术的不断发展,文字识别技术已广泛应用于对各种版面简单的证件识别,例如身份证、银行卡等。现有的文字识别技术,针对版面简单的证件识别,有较高的准确率。但是,对于复杂多变的文本版面,识别准确率往往较低。在保险领域,保险单作为保险公司和客户之间的重要关系凭证,由于其信息量大,版面复杂,市面上难有一款针对保险单高识别准确率的光学字符识别(OpticalCharacterRecognition,OCR)产品。
技术实现思路
本专利技术的目的在于提供一种保险单识别方法、装置以及计算机设备,以缓解对于多种不同类型的保险单版面,保险单识别的准确度较低的技术问题。第一方面,本申请实施例提供了一种保险单识别方法,所述方法包括:基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据;将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单图像所属的保险单类型;基于所述保险单类型对应的预设标题字段匹配所述保险单数据,得到待识别保险单预设标题字段识别结果,匹配所有预设标题字段,最终得到整个保险单图像的识别结果。在一个可能的实现中,所述方法还包括:基于所述保险单类型对应的预设标题字段匹配保险单识别数据,如果识别数据是以表格形式存在,则需要进行表格数据分析,得到与所述预设标题字段相匹配的表格数据;基于所述保险单类型对应的预设标题字段匹配保险单识别数据,如果识别数据是以表格形式存在,则需要进行表格数据分析,得到与所述预设标题字段相匹配的表格数据的步骤,包括:如果与预设标题字段相匹配的数据是以表格的形式存在,则选取用于界定表格范围的基准坐标点,基于所述基准坐标点从所述保险单数据中确定位于所述表格范围内的多个表格数据;分别对每个所述表格数据按照预设排列规则进行分割,得到多个纵列;基于多个所述表格数据中相同主题的字段内容,将多个所述表格数据中所述纵列中的字段进行合并,得到目标表格;将所述目标表格中的表头与字段进行对齐,得到最终表格数据;基于所述最终表格数据,将预设标题字段与表格表头进行匹配,得到所述与预设标题字段相匹配的表格数据。在一个可能的实现中,分别对每个所述表格数据按照预设排列规则进行分割,得到多个纵列的步骤,包括:按照预设排列规则计算所述表格数据中每一个纵列基准框图的坐标点;针对每个所述基准框图的坐标点,从所述表格数据的框图中确定坐标点差值小于预设差值的目标框图;将所述目标框图确定为隶属于所述基准框图的目标纵列,基于多个所述目标纵列对所述表格数据的框图进行分割,得到多个纵列。在一个可能的实现中,基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据的步骤,包括:通过训练后的倾斜文本检测模型对所述待识别保险单图像进行文字检测,得到所述待识别保险单图像中的文本位置;基于所述文本位置对所述待识别保险单图像中的文本进行切分,将切分结果输入至训练后的文本识别模型,得到保险单数据;所述保险单数据包括字符位置以及与所述字符位置对应的字符内容。在一个可能的实现中,将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单图像所属的保险单类型的步骤,包括:将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,得到相同字符数量;如果所述相同字符数量大于预设数量,则确定所述待识别保险单图像中的保险单属于所述预设保险单类别关键字符对应的保险单类型。在一个可能的实现中,基于所述保险单类型对应的预设标题字段匹配所述保险单数据,得到待识别保险单预设标题字段识别结果,最终得到整个保险单图像的识别结果的步骤,包括:基于所述保险单类型对应的预设标题字段以及预设匹配字符数量,在所述保险单数据中进行文本查找,得到与所述预设标题字段相匹配的目标保险单数据;所述预设字符数量为所述预设标题字段对应待识别的最少字符数量;匹配所有预设标题字段,最终得到整个保险单图像的识别结果。在一个可能的实现中,基于所述保险单类型对应的预设标题字段以及预设匹配字符数量,在所述保险单数据中进行文本查找,得到与所述预设标题字段相匹配的目标保险单数据的步骤,包括:基于所述保险单类型对应的预设标题字段以及预设字符数量,在所述保险单数据中进行文本查找,得到一个或多个与预设标题字段相匹配的目标保险单数据;根据上述得到的一个或多个所述目标保险单数据的位置坐标信息,确定与所述预设标题字段对应的目标字符内容,将所述目标字符内容作为目标保险单预设标题字段匹配结果。第二方面,提供了一种保险单识别装置,包括:获取模块,用于基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据;匹配模块,用于将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单所属的保险单类型;识别模块,用于基于所述保险单类型对应的预设标题字段匹配所述保险单数据,得到待识别保险单预设标题字段识别结果,匹配所有预设标题字段,最终得到整个保险单图像的识别结果。第三方面,本申请实施例又提供了一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。本申请实施例带来了以下有益效果:本申请实施例提供的一种保险单识别方法、装置以及计算机设备,能够基于待识别保险单图像通过训练后的文本检测和识别模型得到待识别保险单图像中的保险单数据,然后,将保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定待识别保险单所属的保险单类型,之后,基于保险单类型对应的预设标题字段匹配保险单识别数据,得到待识别保险单预设标题字段识别结果,最终得到整个保险单图像的识别结果,本方案中,通过将保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定待识别保险单所属的保险单类型,再基于保险单类型对应的预设标题字段匹配保险单识别数据,得到待识别保险单预设标题字段识别结果,能够针对不同类型的保险单进行更具针对性更加精确的保险单识别,可以应对多种不同类型版式,缓解了对于多种不同类型的保险单版面,保险单识别的准确度较低的技术问题。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请本文档来自技高网...

【技术保护点】
1.一种保险单识别方法,其特征在于,所述方法包括:/n基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据;/n将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单图像所属的保险单类型;/n基于所述保险单类型对应的预设标题字段匹配所述保险单数据,得到待识别保险单预设标题字段识别结果,匹配所有预设标题字段,最终得到整个保险单图像的识别结果。/n

【技术特征摘要】
1.一种保险单识别方法,其特征在于,所述方法包括:
基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据;
将所述保险单数据中的字符与预设保险单类别关键字符进行匹配,根据匹配结果确定所述待识别保险单图像所属的保险单类型;
基于所述保险单类型对应的预设标题字段匹配所述保险单数据,得到待识别保险单预设标题字段识别结果,匹配所有预设标题字段,最终得到整个保险单图像的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述保险单类型对应的预设标题字段匹配保险单识别数据,如果识别数据是以表格形式存在,则需要进行表格数据分析,得到与所述预设标题字段相匹配的表格数据;
基于所述保险单类型对应的预设标题字段匹配保险单识别数据,如果识别数据是以表格形式存在,则需要进行表格数据分析,得到与所述预设标题字段相匹配的表格数据的步骤,包括:
如果与预设标题字段相匹配的数据是以表格的形式存在,则选取用于界定表格范围的基准坐标点,基于所述基准坐标点从所述保险单数据中确定位于所述表格范围内的多个表格数据;
分别对每个所述表格数据按照预设排列规则进行分割,得到多个纵列;
基于多个所述表格数据中相同主题的字段内容,将多个所述表格数据中所述纵列中的字段进行合并,得到目标表格;
将所述目标表格中的表头与字段进行对齐,得到最终表格数据;
基于所述最终表格数据,将预设标题字段与表格表头进行匹配,得到所述与预设标题字段相匹配的表格数据。


3.根据权利要求2所述的方法,其特征在于,分别对每个所述表格数据按照预设排列规则进行分割,得到多个纵列的步骤,包括:
按照预设排列规则计算所述表格数据中每一个纵列基准框图的坐标点;
针对每个所述基准框图的坐标点,从所述表格数据的框图中确定坐标点差值小于预设差值的目标框图;
将所述目标框图确定为隶属于所述基准框图的目标纵列,基于多个所述目标纵列对所述表格数据的框图进行分割,得到多个纵列。


4.根据权利要求1所述的方法,其特征在于,基于待识别保险单图像通过训练后的文本检测和识别模型得到所述待识别保险单图像中的保险单数据的步骤,包括:
通过训练后的倾斜文本检测模型对所述待识别保险单图像进行文字检测,得到所述待识别保险单图像中的文本位置;
基于所述文本位置对所述待识别保险单图像中的文本进行切分,将切分结果输入至训练后的文本识别模型,得到保险单数据;所述保险单数据包括字符位置以及与所述字符位置对应的字符内容。


5.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:李树凯田强位双双姚灿张瑞楠赵泽通
申请(专利权)人:阳光保险集团股份有限公司阳光人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1