文档关键信息抽取系统测试方法及装置制造方法及图纸

技术编号:18289651 阅读:25 留言:0更新日期:2018-06-24 04:25
本发明专利技术公开了一种文档关键信息抽取系统测试方法及装置,该方法包括:获取关键信息抽取系统的机器抽取结果和人工标注的预期抽取结果;分别计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离;根据所述带噪编辑距离确定机器抽取结果与预期抽取结果之间的权重,生成带权二分图;计算所述带权二分图的最大匹配;根据所述最大匹配,确定测试结果。利用本发明专利技术,可以提高测试结果的准确性。

【技术实现步骤摘要】
文档关键信息抽取系统测试方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种文档关键信息抽取系统测试方法及装置。
技术介绍
随着信息技术的不断发展,互联网的快速普及,人们面对的信息越来越多,其中大多为各种形式的文档。为了快速、高效地找出文档中的关键信息,减少人们阅读时间,业界开发了一些文档关键信息抽取系统,而不同的系统其性能及信息抽取的准确度会有很大差别,因此需要能够对不同系统进行客观准确的测试,以便为用户对系统的选用提供正确的参考。由于系统抽取结果与预期抽取结果往往都是无序的,针对这种无序的机器抽取结果和预期抽取结果,现有的文档关键信息抽取系统的测试方法一般采用编辑距离和二分图的最大匹配算法对系统结果进行评测,具体过程如下:(1)分别计算每一个机器抽取结果与每一个预期抽取结果之间的编辑距离;(2)将所述编辑距离作为机器抽取结果与预期抽取结果之间的权重,生成带权二分图;(3)使用KM算法求带权二分图的最大匹配;(4)根据最大匹配结果,确定测试结果。当输入为声音、图片、PDF等非文本格式时,关键信息抽取系统会先将输入的声音、图片、PDF转化为文本输出,此时会引入各种噪声数据,导致机器抽取结果与预期抽取结果存在一定差异。而现有技术的评测方法直接使用编辑距离进行相似度计算,算法单一,无法解决噪声数据引入的误差,从而会影响测试结果的准确性。
技术实现思路
本专利技术实施例提供一种文档关键信息抽取系统测试方法及装置,以提高测试结果的准确性。为此,本专利技术提供如下技术方案:一种文档关键信息抽取系统测试方法,所述方法包括:获取关键信息抽取系统的机器抽取结果和人工标注的预期抽取结果;分别计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离;根据所述带噪编辑距离确定机器抽取结果与预期抽取结果之间的权重,生成带权二分图;计算所述带权二分图的最大匹配;根据所述最大匹配,确定测试结果。可选地,所述带噪编辑距离包括:带噪编辑错误、带噪插入错误、带噪删除错误;所述计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离包括:根据所述抽取系统引起的编辑错误和前端编辑噪声引起的编辑错误,计算所述带噪编辑错误;根据所述抽取系统引起的插入错误和前端插入噪声引起的插入错误,计算所述带噪插入错误;根据所述抽取系统引起的删除错误和前端删除噪声引起的删除错误,计算所述带噪删除错误。可选地,根据预先确定的常见噪声数据列表计算所述带噪编辑错误、带噪插入错误、带噪删除错误。可选地,所述计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离还包括:基于正确判断概率最大化或错误判断概率最小化的准则进行噪声权重调整;所述正确判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配正确的概率,所述错误判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配错误的概率。可选地,所述方法还包括:根据所述最大匹配结果,挖掘前端处理噪声数据;根据所述前端处理噪声数据更新所述常见噪声数据列表。可选地,所述方法还包括:在计算所述带权二分图的最大匹配之前,对所述带权二分图进行优化:去除匹配相似度得分低于设定值的匹配路径对应的边。可选地,所述带权二分图包括多个子图;所述计算所述带权二分图的最大匹配包括:分别计算各子图的最大匹配;根据所述各子图的最大匹配得到所述带权二分图的最大匹配。一种文档关键信息抽取系统测试装置,所述装置包括:抽取结果获取模块,用于获取关键信息抽取系统的机器抽取结果和人工标注的预期抽取结果;编辑距离计算模块,用于分别计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离;带权二分图生成模块,用于根据所述带噪编辑距离确定机器抽取结果与预期抽取结果之间的权重,生成带权二分图;最大匹配计算模块,用于计算所述带权二分图的最大匹配;测试结果输出模块,用于根据所述最大匹配,确定测试结果。可选地,所述带噪编辑距离包括:带噪编辑错误、带噪插入错误、带噪删除错误;所述编辑距离计算模块包括:编辑错误计算单元,用于根据所述抽取系统引起的编辑错误和前端编辑噪声引起的编辑错误,计算所述带噪编辑错误;插入错误计算单元,用于根据所述抽取系统引起的插入错误和前端插入噪声引起的插入错误,计算所述带噪插入错误;删除错误计算单元,用于根据所述抽取系统引起的删除错误和前端删除噪声引起的删除错误,计算所述带噪删除错误。可选地,所述编辑错误计算单元根据预先确定的常见噪声数据列表计算所述带噪编辑错误;所述插入错误计算单元根据预先确定的常见噪声数据列表计算所述带噪插入错误;所述删除错误计算单元根据预先确定的常见噪声数据列表计算所述带噪删除错误。可选地,所述编辑距离计算模块还包括:噪声权重调整单元,用于基于正确判断概率最大化或错误判断概率最小化的准则进行噪声权重调整;所述正确判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配正确的概率,所述错误判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配错误的概率。可选地,所述装置还包括:噪声数据列表更新模块,用于根据所述最大匹配结果,挖掘前端处理噪声数据,并根据所述前端处理噪声数据更新所述常见噪声数据列表。本专利技术实施例提供的文档关键信息抽取系统测试方法及装置,在计算机器抽取结果与预期抽取结果之间的编辑距离时,引入噪音特征,从而使计算得到的带噪编辑距离能够更好地体现真实的编辑距离,进而减少了抽取系统前端对非文本格式的输入进行文本转换时产生的噪声对测试结果的影响。进一步地,基于正确判断概率最大化或错误判断概率最小化的准则进行噪声权重调整,从而可以得到更准确的噪声错误,进一步减小了带噪编辑距离与真实的编辑距离的误差。进一步地,通过对带权二分图的优化,将其中部分权重较低的边去掉,使整个计算最大匹配的过程去除了KM算法中无用的计算过程,降低了计算的复杂度,提高了测试效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例文档关键信息抽取系统测试方法的一种流程图;图2是本专利技术实施例中带权二分图的示意图;图3是本专利技术实施例文档关键信息抽取系统测试方法的另一种流程图;图4是本专利技术实施例中机器抽取结果中的信息点与预期抽取结果中的所有信息点的匹配得分曲线示意图;图5是图4所示曲线中影响匹配判断结果的匹配路径选择示意图;图6是本专利技术实施例中从带权二分图中去除部分边后得到的多个独立子图示例;图7是本专利技术实施例文档关键信息抽取系统测试装置的一种结构示意图;图8是本专利技术实施例文档关键信息抽取系统测试装置的另一种结构示意图;图9是本专利技术实施例文档关键信息抽取系统测试装置的另一种结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。针对现有的文档关键信息抽取系统测试方法对非文本格式的输入进行关键信息抽取时存在的问题,本专利技术实施例提供一种文档关键信息抽取系统测试方法及装置,在计算机器抽取结果与预期抽取结果之间的编辑距离时,引入噪音特征,减少抽取系统前端对非文本文档来自技高网
...
文档关键信息抽取系统测试方法及装置

【技术保护点】
1.一种文档关键信息抽取系统测试方法,其特征在于,所述方法包括:获取关键信息抽取系统的机器抽取结果和人工标注的预期抽取结果;分别计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离;根据所述带噪编辑距离确定机器抽取结果与预期抽取结果之间的权重,生成带权二分图;计算所述带权二分图的最大匹配;根据所述最大匹配,确定测试结果。

【技术特征摘要】
1.一种文档关键信息抽取系统测试方法,其特征在于,所述方法包括:获取关键信息抽取系统的机器抽取结果和人工标注的预期抽取结果;分别计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离;根据所述带噪编辑距离确定机器抽取结果与预期抽取结果之间的权重,生成带权二分图;计算所述带权二分图的最大匹配;根据所述最大匹配,确定测试结果。2.根据权利要求1所述的方法,其特征在于,所述带噪编辑距离包括:带噪编辑错误、带噪插入错误、带噪删除错误;所述计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离包括:根据所述抽取系统引起的编辑错误和前端编辑噪声引起的编辑错误,计算所述带噪编辑错误;根据所述抽取系统引起的插入错误和前端插入噪声引起的插入错误,计算所述带噪插入错误;根据所述抽取系统引起的删除错误和前端删除噪声引起的删除错误,计算所述带噪删除错误。3.根据权利要求2所述的方法,其特征在于,根据预先确定的常见噪声数据列表计算所述带噪编辑错误、带噪插入错误、带噪删除错误。4.根据权利要求2所述的方法,其特征在于,所述计算每一个机器抽取结果与每一个预期抽取结果之间的带噪编辑距离还包括:基于正确判断概率最大化或错误判断概率最小化的准则进行噪声权重调整;所述正确判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配正确的概率,所述错误判断概率是指所述最大匹配中所述机器抽取结果与所述预期抽取结果匹配错误的概率。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述最大匹配结果,挖掘前端处理噪声数据;根据所述前端处理噪声数据更新所述常见噪声数据列表。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:在计算所述带权二分图的最大匹配之前,对所述带权二分图进行优化:去除匹配相似度得分低于设定值的匹配路径对应的边。7.根据权利要求6所述的方法,其特征在于,所述带权二分图包括多个子图;所述计算所述带权二分图的最大匹配包括:分别计算各子图的最大匹配;根据所述各子...

【专利技术属性】
技术研发人员:徐陈黄燕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1