一种用于数据集的数据使用质量的评估方法技术

技术编号:13771728 阅读:70 留言:0更新日期:2016-09-29 17:08
本发明专利技术提供了一种用于数据集的数据使用质量的评估方法,包括:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。相比于现有技术,本发明专利技术将数据集应用于问答系统时的问题作为使用场景,每个查询问题对应于一个使用场景,并通过可查询性度量在数据集上构建查询的难以程度,以及通过信息性度量特定的使用场景中的查询结果所包含的信息量,从而可操作地评估数据集的数据使用质量。

【技术实现步骤摘要】

本专利技术涉及一种数据质量评估技术,尤其涉及一种用于数据集的数据使用质量的评估方法
技术介绍
近些年,各种数据源在网上大量发布,不同数据源中的实例可能会指向现实世界中的同一实体,使得不同的数据源彼此关联。例如,这些数据源不仅包括百科类的通用数据集,也包括一些特殊领域的数据集(诸如医疗领域、金融领域等)。然而,上述数据源中的数据往往会存在这样或那样的质量问题,比如,数据的不一致性、不完整性或不准确性等。因此,了解数据集的数据质量是使用数据集的一个重要前提。针对数据集的数据质量,现有的大量文献提出了不同的度量,例如,数据复杂度、链接质量、标签质量等等。在一篇有关数据质量的文献中,其将现有的数据质量的度量总结为68个度量,并将这些度量分成若干个维度,这些维度可以是数据的可用性、数据的固有特性、数据表示方面的特性。然而,上述总结的这些度量并未从用户的视角考虑,而且也没有对数据集的使用性进行实际地度量。此外,尽管现有的大量数据质量研究都认同数据质量是数据在特定应用场景下的适合使用性这一说法,但是现有的数据质量并没有与这个定义相关的度量或者模型。有鉴于此,如何设计一种能够有效度量和评估数据集中的数据使用质量的解决方案,以便反映数据在被用户使用过程中的特性,进而从用户使用层面来体现数据集的数据质量,是相关技术人员面临的一项课题。
技术实现思路
依据本专利技术的一个方面,提供了一种用于数据集的数据使用质量的评估方法,包括以下步骤:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。在其中的一实施例,所述使用质量度量包括两个维度:可查询性和信息性,其中所述可查询性用于度量用户针对所述自然语言问题在所述数据集上构建出一个正确查询的难易程度;所述信息性用于度量所述自然语言问题中的查询结果所包含的信息量。在其中的一实施例,所述可查询性包含构建查询的难易等级、构建查询花费的时间、在域上构造查询的时间、在属性约束上构造查询的时间以及构建查询的尝试次数。在其中的一实施例,所述信息性包含信息性等级、精度、召回率和综合信息性。在其中的一实施例,所述综合信息性满足下列公式: C I = N C A N A × ( N C A A ) 2 × α × β ]]>其中,CI表示综合信息性,NCA表示查询结果中的正确答案数量,NA表示问题的标准答案的数量,A表示查询结果的总数,α表示数据集的数据正确度,β表示数据集的数据可理解程度,NCA/NA表示查询结果的精度,NCA/A表示查询结果的召回率。在其中的一实施例,数据集的数据正确度α为0.8,数据集的数据可理解程度β为0.8。在其中的一实施例,上述获取所述问题评测集的步骤通过以下任意一项实现:-从所述数据集的应用领域获取标准问题的集合;-从所述数据集相关的网络平台获取问题;-数据使用质量的评估人员自定义问题。在其中的一实施例,上述根据所述问题评测集的问题进行总结和归纳的步骤还包括:将问题转化为数据集上可执行的查询;根据所述查询的结构对查询进行分类,获得分类结果;以及根据分类结果形成所述问题模板。在其中的一实施例,上述将问题转化为数据集上可执行的查询包括:设定所述问题所属的域,以定义在域上构造查询的时间Ta;添加所述问题的属性约束,以定义在属性约束上构造查询的时间Tb;以及根据所述问题的域和属性约束,自动构建与所述问题相对应的查询并在所述数据集上执行所述查询,其中,构建查询的时间T满足下列公式:T=NOA*(Ta+Tb);在此,NOA表示构造查询的尝试次数。在其中的一实施例,所述数据集上执行所构建的查询时,当查询结果不存在或者不正确时,依次重新设定所述问题所属的域和属性约束。相比于现有技术,本专利技术在评估数据集的数据使用质量时,获取在数据集上回答自然语言问题时的问题评测集,然后根据问题评测集的问题进行总结和归纳从而形成多个问题模板,最后利用问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估数据集的数据使用质量。如此一来,本专利技术将数据集应用于问答系统时的问题作为使用场景,每个查询问题对应于一个使用场景,通过使用质量度量之一个维度的可查询性来度量在数据集上构建查询的难以程度,并通过使用质量度量之另一个维度的信息性来度量特定的使用场景中的查询结果所包含的信息量,从而利用可查询性和信息性来可操作地评估数据集的数据使用质量。附图说明读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面。其中,图1示出依据本专利技术的一实施方式,用于数据集的数据使用质量的评估方法的流程框图。具体实施方式为了使本申请所揭示的
技术实现思路
更加详尽与完备,可参照附图以及本专利技术的下述各种具体实施例,附图中相同的标记代表相同或相似的组件。然而,本领域的普通技术人员应当理解,下文中所提供的实施例并非用来限制本专利技术所涵盖的范围。此外,附图仅仅用于示意性地加以说明,并未依照其原尺寸进行绘制。下面参照附图,对本专利技术各个方面的具体实施方式作进一步的详细描述。图1示出依据本专利技术的一实施方式,用于数据集的数据使用质量的评估方法的流程框图。参照图1,在该实施方式中,数据使用质量的评估方法通过步骤S1~S3予以实现。首先,在步骤S1中,获取在数据集上回答自然语言问题时的问题评测集;其次,在步骤S2中,根据所获取的问题评测集的问题进行总结和归纳,形成多个问题模板;最后,在步骤S3中,根据问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估数据集的数据使用质量。获取问题评测集在现有技术中,可以使用的数据集包括与领域无关的通用数据集和与领域相关的数据集。一般来说,通用数据集是指综合性的数据集,如百度百科上的数据。领域相关的数据集是指特定领域的数据集,如海洋领域、医疗领域。通用数据集包含的范围一般都比较广,但是知识的粒度比较粗。而特定领域的数据集由于聚焦于某一专业领域,虽然知识的广度没有通用数据集大,但是其知识粒度则要详细很多。在现有的数据质量研究以及数据的使用研究中往往都是侧重于通用数据集的数据质量,所以面向通用数据集有很多相关的问题集合可供使用,例如,在通用数据集的问答领域中的问题测试集:一个来自Question Answering over Linked Data(QALD),另一个来自Stanford的NLP实验室的WebQuestions。本文档来自技高网
...

【技术保护点】
一种用于数据集的数据使用质量的评估方法,其特征在于,该评估方法包括以下步骤:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。

【技术特征摘要】
1.一种用于数据集的数据使用质量的评估方法,其特征在于,该评估方法包括以下步骤:获取在数据集上回答自然语言问题时的问题评测集;根据所述问题评测集的问题进行总结和归纳,形成多个问题模板;以及根据所述问题模板和使用质量度量,将最终的查询结果与正确答案进行对比,计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。2.如权利要求1所述的评估方法,其特征在于,所述使用质量度量包括两个维度:可查询性和信息性,其中,所述可查询性用于度量用户针对所述自然语言问题在所述数据集上构建出一个正确查询的难易程度;所述信息性用于度量所述自然语言问题中的查询结果所包含的信息量。3.如权利要求2所述的评估方法,其特征在于,所述可查询性包含构建查询的难易等级、构建查询花费的时间、在域上构造查询的时间、在属性约束上构造查询的时间以及构建查询的尝试次数。4.如权利要求2所述的评估方法,其特征在于,所述信息性包含信息性等级、精度、召回率和综合信息性。5.如权利要求4所述的评估方法,其特征在于,所述综合信息性满足下列公式: C I = N C A N A × ( N C A A ) 2 &t...

【专利技术属性】
技术研发人员:阮彤甘似禹叶琪李阳赵亮
申请(专利权)人:华东理工大学上海亿通国际股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1