当前位置: 首页 > 专利查询>杨喆专利>正文

模版定位方法、装置和计算机设备制造方法及图纸

技术编号:23605360 阅读:49 留言:0更新日期:2020-03-28 06:17
本申请涉及一种模版定位方法、装置、计算机设备和存储介质。所述方法包括:获取保单模板图片;识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;按照所述图片特性对所述保单模板图片进行分类;针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;根据所述图片特性对所述数据集进行训练,获得模版定位模型。采用本方法能够有效解决因保单保单模板图片量少而无法进行模型训练的问题,提高保单分类的精确性,并提高运行效率。

Template positioning method, device and computer equipment

【技术实现步骤摘要】
模版定位方法、装置和计算机设备
本申请涉及软件开发
,特别是涉及一种模版定位方法、装置、计算机设备和存储介质。
技术介绍
在传统的保单识别领域,通常是根据用户手动输入纸质保单中的数据来进行数据填写,而随着科技的进步,智能保单识别技术应运而生,比如目前迅速发展的OCR图像识别技术,已经广泛应用于身份证、银行卡以及各种保单的识别中,对于身份证和银行卡的OCR识别,其文本位置固定比较方便处理,而保单OCR由于险种种类繁多,样式、条款和排版均不相同,需要针对每一类相同的保单都制作模板来进行分类。目前对保单模版的建立是通过机器学习对每一图片进行特征提取后,对特征数值进行向量机分类,但这种方法需要对大量保单数据进行训练并且运算过程慢,而且经常出现数据集不足的问题,使得保单OCR的模板定位很复杂。
技术实现思路
基于此,有必要针对上述技术问题,提供一种模版定位方法、装置、计算机设备和存储介质,有效解决因保单保单模板图片量少而无法进行模型训练的问题,提高保单分类的精确性,并提高运行效率。一种模版定位方法,所述方法包括:获取保单模板图片;识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;按照所述图片特性对所述保单模板图片进行分类;针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;根据所述图片特性对所述数据集进行训练,获得模版定位模型;>确定模块,适于基于所述模版定位模型确定待处理的保单图片。在其中一个实施例中,在获取保单模板图片之后,还包括:通过机器学习对所述保单模板图片进行粗分类处理。在其中一个实施例中,识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息包括:对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取,获得该区域的坐标信息;根据预设算法对所述坐标信息进行距离转换,得到所述图片特性。在其中一个实施例中,预处理包括:将每一分类下的全部保单模板图片按照预设截取规则进行截取;将截取后的图片按照不同角度进行旋转,生成多张保单模板图片,并进行数据编码标注。在其中一个实施例中,所述图片特性包括板式统一的特性。在其中一个实施例中,还包括:根据板式统一的特性,通过卷积神经网络对所述数据集进行训练。在其中一个实施例中,在训练数据集之前还包括:将所述数据集缩小至设定大小,并进行零均值化处理,将特定文本区域数据转换填入图像数据。一种模版定位装置,所述装置包括:获取模块,适于获取保单模板图片;分析模块,适于识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;分类模块,适于按照所述图片特性对所述保单模板图片进行分类;预处理模块,适于针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;训练模块,适于根据所述图片特性对所述数据集进行训练,获得模版定位模型;确定模块,适于基于所述模版定位模型确定待处理的保单图片。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。上述模版定位方法、装置、计算机设备和存储介质,通过获取保单模板图片,识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性,然后按照所述图片特性对所述保单模板图片进行分类,并针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集,再根据所述图片特性对所述数据集进行训练,获得模版定位模型,从而有效解决数据集不足的问题,提高保单分类的精确性,并提高运行效率。附图说明图1为一个实施例中模版定位方法的流程示意图;图2为一个实施例中确定图片特定文本区域的示意图;图3为一个实施例中步骤S102的流程示意图;图4为一个实施例中预处理的流程示意图;图5为一个实施例中对保单进行编码标注的示意图;图6为一个实施例中模版定位装置的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。附图中的流程图和框图,图示了按照本专利技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现预定的逻辑功能的可执行指令。也应当注意,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。在本专利技术中,图片可以是任意领域和任意类型的图片,为便于表述,本专利技术中仅以保单(即保险单)为一种图片示例进行说明,但可以理解,其他类型的图片同样涵盖在本专利技术的范围内。在一个实施例中,如图1所示,提供了一种模版定位方法,该方法可运行于智能终端中,智能终端可以是个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,也可以是独立的服务器或者是多个服务器组成的服务器集群,具体来说,该方法包括:S101、获取保单模板图片;具体来说,可通过扫描工具对一份或若干份纸质保单进行扫描,获得保单模板图片。在某一实施例中,在获取保单模板图片之后,还可以通过机器学习对获得的保单模板图片先进行粗分类处理,具体来说,可采用无监督学习对保单模板图片进行粗分类处理。其中,无监督学习是指输入数据没有被标记,也没有确定的结果,由模型自动对数据的结构和数值进行归纳。S102、识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;其中,特定文本区域可以是该保单页面中除录入数据外的固有文本,举例来说,如图2所示,特定文本可以是该保单中的固定文本,比如“投保单位”、“联系人姓名”、本文档来自技高网...

【技术保护点】
1.一种模版定位方法,其特征在于,所述方法包括:/n获取保单模板图片;/n识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;/n按照所述图片特性对所述保单模板图片进行分类;/n针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;/n根据所述图片特性对所述数据集进行训练,获得模版定位模型;/n基于所述模版定位模型确定待处理的保单图片。/n

【技术特征摘要】
1.一种模版定位方法,其特征在于,所述方法包括:
获取保单模板图片;
识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;
按照所述图片特性对所述保单模板图片进行分类;
针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;
根据所述图片特性对所述数据集进行训练,获得模版定位模型;
基于所述模版定位模型确定待处理的保单图片。


2.根据权利要求1所述的方法,其特征在于,在获取保单模板图片之后,还包括:
通过机器学习对所述保单模板图片进行粗分类处理。


3.根据权利要求2所述的方法,其特征在于,识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息包括:
对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取,获得该区域的坐标信息;
根据预设算法对所述坐标信息进行距离转换,得到所述图片特性。


4.根据权利要求1所述的方法,其特征在于,所述预处理包括:
将每一分类下的全部保单模板图片按照预设截取规则进行截取;
将截取后的图片按照不同角度进行旋转,生成多张保单模板图片,并进行数据编码标注。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述图片特性包括板式...

【专利技术属性】
技术研发人员:杨喆
申请(专利权)人:杨喆
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1