【技术实现步骤摘要】
一种解析纸质保单数据的方法
本专利技术涉及数据解析领域,具体涉及一种解析纸质保单数据的方法。
技术介绍
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟,但并未出现对纸质保单格式的数据进行精准的识别。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种解析纸质保单数据的方法,对纸质保单数据规整并分类,生成可读,可操作和分析的数据,并对识别错误的文字针对专业性进行智能纠错。根据本申请实施例提供的技术方案,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d ...
【技术保护点】
1.一种解析纸质保单数据的方法,其特征是:包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配 ...
【技术特征摘要】
1.一种解析纸质保单数据的方法,其特征是:包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。2.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。3.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为4.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;...
【专利技术属性】
技术研发人员:王健荣,曹光旺,金鑫,李小川,
申请(专利权)人:成都晟堃科技有限责任公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。