一种针对长文本提取结果的数据质量校验方法技术

技术编号:35414894 阅读:33 留言:0更新日期:2022-11-03 11:12
本申请涉及一种针对长文本提取结果的数据质量校验方法。所述方法包括:获取待校验长文本提取结果,所述待校验长文本提取结果包括多个字段;对所述多个字段进行校验,得到所述多个字段对应的第一校验结果,其中,对多个字段中的单个字段进行校验的过程包括:所述单个字段包括多个特征维度,基于特征维度对应的校验规则,对所述单个字段进行校验,采用第一预设算法得到单个字段的第一校验结果;基于多个字段对应的第一校验结果,采用第二预设算法获得长文本的校验结果,根据所述校验结果确定待校验长文本提取结果的数据质量。采用本方法能够在少量数据或数据样本类型较为离散的情况下,评估长文本提取结果的数据质量。评估长文本提取结果的数据质量。评估长文本提取结果的数据质量。

【技术实现步骤摘要】
一种针对长文本提取结果的数据质量校验方法


[0001]本申请涉及大数据质量保障
,特别是涉及一种针对长文本提取结果的数据质量校验方法。

技术介绍

[0002]随着人工智能
的发展,出现了自然语言处理(NLP,Natural Language Processing)技术。通过自然语言处理技术提取文本信息,提取出的数据结果格式为字段名称加字段值。目前,通过约束规则将文本解析为预设格式的半结构化文本,将文本按照类型分类,依据九个维度的信息质量度量指标对文本信息质量进行计算。
[0003]然而,在验证文本信息质量时,需要大量的数据作为训练样本,在数据类型、特征等较为离散的情况下,验证的准确性不高,并且成本较高,需要长期对质量得分进行维护、分析,难以保证验证结果的准确性。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种针对长文本提取结果的数据质量校验方法,可以在少量数据或数据样本类型较为离散的情况下,评估长文本提取结果的数据质量。
[0005]第一方面,本申请提供了一种针对长文本提取结果的数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对长文本提取结果的数据质量校验方法,其特征在于,所述方法包括:获取待校验长文本提取结果,所述待校验长文本提取结果包括多个字段;对所述多个字段进行校验,得到所述多个字段对应的第一校验结果,其中,对多个字段中的单个字段进行校验的过程包括:所述单个字段包括多个特征维度,基于特征维度对应的校验规则,对所述单个字段进行校验,采用第一预设算法得到单个字段的第一校验结果;基于多个字段对应的第一校验结果,采用第二预设算法获得长文本的校验结果,根据所述校验结果确定待校验长文本提取结果的数据质量。2.根据权利要求1所述的方法,其特征在于,所述第一预设算法包括:根据所述校验规则校验单个字段的多个特征维度,得到单个字段的校验特征结果,将所述校验特征结果与期望结果进行比较,得到单个字段的第一校验结果。3.根据权利要求2所述的方法,其特征在于,所述第二预设算法包括:对所述多个字段对应的第一校验结果取平均值,根据所述平均值获得长文本的校验结果。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取新增待校验长文本的提取结果,所述新增待校验长文本通过待校验长文本的生成时间判断;通过所述第一预设算法和第二预设算法获得新增待校验长文本的校验结果,根据所述新增待校验长文本的校验结果得到新增待校验长文本提取结果的数据质量,生成新增待校验长文本提取结果的数据质量图像。5.一种针对长文本提取结果的数据质量校验装置,其特征在于,所述装置包括:数据获取模块,用于获取待校验长文本提取结果,所述待校验长文本提取结果包括多个字段;第一校验模块,用于对所述多个字段进行校验,得到所述多个字段对应的第一校验结果,其中,对多个字段中的单个字段进行校...

【专利技术属性】
技术研发人员:王赈何晗李俊
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1