【技术实现步骤摘要】
一种多维校验文档识别效果的评估方法
[0001]本专利技术涉及文档识别效果的评估方法
,尤其涉及一种多维校验文档识别效果的评估方法。
技术介绍
[0002]文档识别技术在日常生产的各个领域都有着广泛的应用,一套好的文档识别系统,可以减少重复劳动力,大大提升企业的效率。然而目前市面上很少有可以通用各个领域的文档识别系统,即使针对特定领域开发的定制化文档识别系统,也会存在漏识别、错识别等问题。目前市面上存在多种文档识别系统,但针对识别系统的评估方法很少。如何快速定位现有文档识别系统的相关问题及加速文档识别系统的自我升级迭代,一套全方面、多维校验文档识别效果的评估方法就显得尤为重要。
技术实现思路
[0003]本专利技术的目的在于:为了解决上述问题,而提出的一种多维校验文档识别效果的评估方法。
[0004]为了实现上述目的,本专利技术采用了如下技术方案:
[0005]一种多维校验文档识别效果的评估方法,包括实体级别评分模块、文档级别评分模块、打分模块,所述实体级别评分模块可分为通用实体的校验逻 ...
【技术保护点】
【技术特征摘要】
1.一种多维校验文档识别效果的评估方法,其特征在于,包括实体级别评分模块、文档级别评分模块、打分模块,所述实体级别评分模块可分为通用实体的校验逻辑和专属实体的校验逻辑,涉及以下维度:(1)实体内容的关键词校验,一些实体内容经常涉及某些高频字词,所以针对不同实体维护关键词词典,命中高频关键词则会在评分中加分;(2)实体内容的合规性校验,主要针对数值型实体,如日期类、号码类,会根据数值的长度、范围进行校验,命中合理范围则会在评分中加分,否则该维度直接为0分;(3)实体填充率校验,填充率=单独实体文字坐标构成的矩形面积/整个实体块最外围坐标构成的矩形面积,针对不同的实体,填充率存在一定差异,通过统计分析语料库中实体,获得合理的填充率范围,该维度可以快速校验出识别错误、比较分散的实体;(4)实体所在单元格位置校验,同一实体更倾向于坐落于同一单元格和相邻单元格中,通过统计分析不同实体所在单元格的属性,可对excel等包含单元格的文档进行校验;(5)实体所在行数校验,受实体属性及文档类型版面影响,实体内容长度存在一定的规律性,该维度可以快速筛选出多识别或不常见内容长度的相关实体;(6)实体分布的热力图校验,不同行业的文档在版本制作上存在一定的规律性,受版面影响,实体在文档中分布也存在一定规律性;(7)其他类针对字段种类定制化的校验,针对实体所处的行业背景,还针对一些实体开发了定制化的校验逻辑。2.根据权利要求1所述的一种多维校验文档识别效果的评估方法,其特征在于,所...
【专利技术属性】
技术研发人员:王喆,
申请(专利权)人:钧航武汉物流信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。