一种解析纸质保单数据的方法技术

技术编号：21432512 阅读：41 留言：0更新日期：2019-06-22 12:00

本发明专利技术公开了一种解析纸质保单数据的方法，识别数据并匹配到解析模板，将数据按行规整并排序，通过“最优坐标系”算法，计算得出倾斜度坐标系公式，利用坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，通过距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，再将同行数据分解并分类，使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，使用“字符串相似度”算法，匹配到相似度最高的字段，使用“四相匹配”算法，得出最优的匹配结果，对匹配结果进行分类组装，并“数据格式化”。可对OCR数据按行排序；利用专业的词汇对识别错误的字段进行智能纠错；对保单特定的数据格式进行合理格式化。

全部详细技术资料下载

【技术实现步骤摘要】
一种解析纸质保单数据的方法
本专利技术涉及数据解析领域，具体涉及一种解析纸质保单数据的方法。
技术介绍
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟，但并未出现对纸质保单格式的数据进行精准的识别。
技术实现思路
鉴于现有技术中的上述缺陷或不足，期望提供一种解析纸质保单数据的方法，对纸质保单数据规整并分类，生成可读，可操作和分析的数据，并对识别错误的文字针对专业性进行智能纠错。根据本申请实施例提供的技术方案，一种解析纸质保单数据的方法，包括以下步骤，S101、接入OCR识别数据，S102、识别所述数据并匹配到解析模板，S103、将所述数据按行规整并排序，S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d...

【技术保护点】
1.一种解析纸质保单数据的方法，其特征是：包括以下步骤，S101、接入OCR识别数据，S102、识别所述数据并匹配到解析模板，S103、将所述数据按行规整并排序，S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，S106、通过所述距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，S107、再将同行数据分解并分类，S108、使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，S109、使用“字符串相似度”算法，匹配到相似度最高的字段，S110、使用“四相匹配”算法，得出最优的匹...

【技术特征摘要】
1.一种解析纸质保单数据的方法，其特征是：包括以下步骤，S101、接入OCR识别数据，S102、识别所述数据并匹配到解析模板，S103、将所述数据按行规整并排序，S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，S106、通过所述距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，S107、再将同行数据分解并分类，S108、使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，S109、使用“字符串相似度”算法，匹配到相似度最高的字段，S110、使用“四相匹配”算法，得出最优的匹配结果，S111、对所述匹配结果进行分类组装，并“数据格式化”，最后得到规整并分类好的保单数据。2.根据权利要求1所述的一种解析纸质保单数据的方法，其特征是：所述“最优坐标系”算法的实现方法为，计算每个字段倾斜的角度；去掉最大和最小值；计算出角度的平均值；循环匹配到最接近于平均值的字段；使用匹配到最优的字段的坐标建立所述“最优坐标系”，所述“最优坐标系”算法为y＝kx+b。3.根据权利要求1所述的一种解析纸质保单数据的方法，其特征是：所述“点到线距离”算法为，直线Ax+By+C＝0，坐标Xo，Yo，那么这点到这直线的距离就为4.根据权利要求1所述的一种解析纸质保单数据的方法，其特征是：所述“右最短，左排除”算法的实现步骤为，对OCR接入的所述数据通过坐标点做字段最左排序；循环并指定tag字段对其他元素进行匹配；...

【专利技术属性】
技术研发人员：王健荣，曹光旺，金鑫，李小川，
申请(专利权)人：成都晟堃科技有限责任公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人