【技术实现步骤摘要】
一种数据表识别方法、装置及终端设备
本专利技术属于数据处理
,尤其涉及数据表识别方法及终端设备。
技术介绍
现有技术在进行纸质数据表资料电脑录入的时候,都是由人工手动对数据表中的各部分内容进行录入,需要耗费大量的时间,效率十分低下。光学字符识别(OpticalCharacterRecognition,OCR)技术出现后,人们开始使用OCR技术进行纸质数据表资料的识别录入,即利用OCR技术识别数据表各部分内容及其中的字符并在电脑中进行存储,然而实际情况中,由于OCR技术本身对数据表的分析识别效果并非很好,从而使得现有技术对数据表识别录入时表格数据识别准确率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据表识别方法、装置及终端设备,以解决现有技术中对数据表识别录入时表格数据识别准确率较低的问题。本专利技术实施例的第一方面提供了一种数据表识别方法,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数 ...
【技术保护点】
1.一种数据表识别方法,其特征在于,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。
【技术特征摘要】
1.一种数据表识别方法,其特征在于,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。2.如权利要求1所述的数据表识别方法,其特征在于,在所述针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别之前,还包括:对所述数据表区域图像进行字符识别,并将字符识别得到的所述数据表区域图像对应的区域字符串,与所述表格模板中所述字段名单元格包含的字段名称字符串进行匹配,确定出所述表格模板中所述字段名单元格对应的所述数据表区域图像;基于所述表格模板中所述字段名单元格与所述字段值单元格的位置关系,以及所述表格模板中所述字段名单元格对应的所述数据表区域图像,确定出所述表格模板中所述字段值单元格对应的所述数据表区域图像。3.如权利要求1所述的数据表识别方法,其特征在于,若所述字符识别结果满足所述字符串格式要求,还包括:若所述字段值单元格不具有对应的所述候选字符串库,且所述字符识别结果的字符数大于1,对所述字符识别结果进行文本纠错处理;将所述文本纠错处理后的所述字符识别结果填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。4.如权利要求1至3任意一项所述的数据表识别方法,其特征在于,还包括:若所述字符识别结果不满足所述字符串格式要求,更新所述字段值单元格对应的所述数据表区域图像的字符识别结果不满足所述字符串格式要求的总次数;若所述总次数小于或等于预设的错误阈值,返回执行所述对所述字段值单元格对应的所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格预设对应的字符串格式要求的操作;若所述总次数大于所述错误阈值,将最近一次所述字段值单元格对应的所述数据表区域图像的字符识别结果,填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。5.如权利要求3所述的数据表识别方法,其特征在于,所述对所述字符识别结果进行文本纠错处理,包括:利用预设的文本纠错算法对所述字符识别结果进行处理,确定出所述字符识别结果中的待纠错字符,以及所述待纠错字符对应的替换概率最大的N个候选替换字符,其中,N为自然数;对所述数据表区域图像进行字符图像分割,并确定出与所述待纠错字符对应的字符图像;对所述字符图像的字符识别结果进行字形结构分析,确定出所述字符图像对应的字形结构信息;利用所述N个候选替换字符中字形结构信息与所述字符图像的字形结构信息匹配度最大,且替换...
【专利技术属性】
技术研发人员:李亚宁,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。