一种用于数据集的数据使用质量的评估方法技术

技术编号：13771728 阅读：70 留言：0更新日期：2016-09-29 17:08

本发明专利技术提供了一种用于数据集的数据使用质量的评估方法，包括：获取在数据集上回答自然语言问题时的问题评测集；根据所述问题评测集的问题进行总结和归纳，形成多个问题模板；以及根据所述问题模板和使用质量度量，将最终的查询结果与正确答案进行对比，计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。相比于现有技术，本发明专利技术将数据集应用于问答系统时的问题作为使用场景，每个查询问题对应于一个使用场景，并通过可查询性度量在数据集上构建查询的难以程度，以及通过信息性度量特定的使用场景中的查询结果所包含的信息量，从而可操作地评估数据集的数据使用质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据质量评估技术，尤其涉及一种用于数据集的数据使用质量的评估方法。
技术介绍
近些年，各种数据源在网上大量发布，不同数据源中的实例可能会指向现实世界中的同一实体，使得不同的数据源彼此关联。例如，这些数据源不仅包括百科类的通用数据集，也包括一些特殊领域的数据集(诸如医疗领域、金融领域等)。然而，上述数据源中的数据往往会存在这样或那样的质量问题，比如，数据的不一致性、不完整性或不准确性等。因此，了解数据集的数据质量是使用数据集的一个重要前提。针对数据集的数据质量，现有的大量文献提出了不同的度量，例如，数据复杂度、链接质量、标签质量等等。在一篇有关数据质量的文献中，其将现有的数据质量的度量总结为68个度量，并将这些度量分成若干个维度，这些维度可以是数据的可用性、数据的固有特性、数据表示方面的特性。然而，上述总结的这些度量并未从用户的视角考虑，而且也没有对数据集的使用性进行实际地度量。此外，尽管现有的大量数据质量研究都认同数据质量是数据在特定应用场景下的适合使用性这一说法，但是现有的数据质量并没有与这个定义相关的度量或者模型。有鉴于此，如何设计一种能够有效度量和评估数据集中的数据使用质量的解决方案，以便反映数据在被用户使用过程中的特性，进而从用户使用层面来体现数据集的数据质量，是相关技术人员面临的一项课题。
技术实现思路
依据本专利技术的一个方面，提供了一种用于数据集的数据使用质量的评估方法，包括以下步骤：获取在数据集上回答自然语言问题时的问题评测集；根据所述问题评测集的问题进行总结和归纳，形成多个问题模板；以及根据所述问题模板和使用质量度量，将最...

【技术保护点】
一种用于数据集的数据使用质量的评估方法，其特征在于，该评估方法包括以下步骤：获取在数据集上回答自然语言问题时的问题评测集；根据所述问题评测集的问题进行总结和归纳，形成多个问题模板；以及根据所述问题模板和使用质量度量，将最终的查询结果与正确答案进行对比，计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。

【技术特征摘要】
1.一种用于数据集的数据使用质量的评估方法，其特征在于，该评估方法包括以下步骤：获取在数据集上回答自然语言问题时的问题评测集；根据所述问题评测集的问题进行总结和归纳，形成多个问题模板；以及根据所述问题模板和使用质量度量，将最终的查询结果与正确答案进行对比，计算出查询结果的精度、召回率和综合信息性以便用户评估所述数据集的数据使用质量。2.如权利要求1所述的评估方法，其特征在于，所述使用质量度量包括两个维度：可查询性和信息性，其中，所述可查询性用于度量用户针对所述自然语言问题在所述数据集上构建出一个正确查询的难易程度；所述信息性用于度量所述自然语言问题中的查询结果所包含的信息量。3.如权利要求2所述的评估方法，其特征在于，所述可查询性包含构建查询的难易等级、构建查询花费的时间、在域上构造查询的时间、在属性约束上构造查询的时间以及构建查询的尝试次数。4.如权利要求2所述的评估方法，其特征在于，所述信息性包含信息性等级、精度、召回率和综合信息性。5.如权利要求4所述的评估方法，其特征在于，所述综合信息性满足下列公式： C I = N C A N A × ( N C A A ) 2 &t...

【专利技术属性】
技术研发人员：阮彤，甘似禹，叶琪，李阳，赵亮，
申请(专利权)人：华东理工大学，上海亿通国际股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人