一种解析纸质保单数据的方法技术

技术编号:21432512 阅读:23 留言:0更新日期:2019-06-22 12:00
本发明专利技术公开了一种解析纸质保单数据的方法,识别数据并匹配到解析模板,将数据按行规整并排序,通过“最优坐标系”算法,计算得出倾斜度坐标系公式,利用坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,通过距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,再将同行数据分解并分类,使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,使用“字符串相似度”算法,匹配到相似度最高的字段,使用“四相匹配”算法,得出最优的匹配结果,对匹配结果进行分类组装,并“数据格式化”。可对OCR数据按行排序;利用专业的词汇对识别错误的字段进行智能纠错;对保单特定的数据格式进行合理格式化。

【技术实现步骤摘要】
一种解析纸质保单数据的方法
本专利技术涉及数据解析领域,具体涉及一种解析纸质保单数据的方法。
技术介绍
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟,但并未出现对纸质保单格式的数据进行精准的识别。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种解析纸质保单数据的方法,对纸质保单数据规整并分类,生成可读,可操作和分析的数据,并对识别错误的文字针对专业性进行智能纠错。根据本申请实施例提供的技术方案,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。本申请中,所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。本申请中,所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为本申请中,所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。本申请中,所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。本申请中,所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。本申请中,所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。本申请中,所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。综上所述,本申请的有益效果:1.可对OCR数据按行排序,把数据关联起来;2.利用专业的词汇对识别错误的字段进行智能纠错;3.对保单特定的数据格式进行合理格式化。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本申请的流程示意图;图2为打码保单示例图;图3为普通解析打码保单结果图;图4为保单数据排行示例图;图5为普通解析保单数据排行结果图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考图1,一种解析纸质保单数据的方法,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配,避免每一种情况的漏匹配导致匹配结果不符。所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化,所述时间格式化,OCR识别的数据通常会出现例本文档来自技高网...

【技术保护点】
1.一种解析纸质保单数据的方法,其特征是:包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。

【技术特征摘要】
1.一种解析纸质保单数据的方法,其特征是:包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。2.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。3.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为4.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;...

【专利技术属性】
技术研发人员:王健荣曹光旺金鑫李小川
申请(专利权)人:成都晟堃科技有限责任公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1