当前位置: 首页 > 专利查询>河海大学专利>正文

基于总体数据质量的主题数据集过滤与排序方法及系统技术方案

技术编号:15391655 阅读:90 留言:0更新日期:2017-05-19 04:52
提供一种基于总体数据质量的主题数据集过滤与排序方法及系统,包括下列步骤:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;在人机交互界面中输出过滤并排序后的主题数据集信息。本发明专利技术克服现有的数据集主题搜索与过滤技术忽视数据质量的弊端,方便用户筛选出满足质量度量值强制性要求和总体数据质量要求的主题数据集,代表数据目录门户技术发展趋势。

Method and system for filtering and sorting subject data set based on overall data quality

Provide a set of filtering and ranking method and system overall theme data based on data quality, which comprises the following steps: according to the quality of the metadata subject data set user to search in the data directory and their data quality, consult the user's data set of requirements in the field of human-computer interaction; according to the quality stipulated by the user to the data set data quality requirements in measurement of mandatory requirements, to filter the subject data set; according to the quality of selected users of the data sets and data quality requirements in the index and weight, the overall theme of data data to calculate the filtered set quality, according to the subject data set is sorted output filter in the man-machine interface; and subject data sorted set information. The invention overcomes the defects of existing data sets subject to ignore the drawbacks of data quality search and filtering technology, convenient user selected to meet the quality metrics topic data mandatory requirements and quality requirements of the overall data set, the data directory portal represents the trends of technology development.

【技术实现步骤摘要】
基于总体数据质量的主题数据集过滤与排序方法及系统
本专利技术属于数据集搜索与过滤、Web数据目录与元数据、数据质量管理等
的交叉领域,涉及一种基于总体数据质量的主题数据集过滤技术,尤其是一种基于总体数据质量的主题数据集过滤与排序方法及系统。
技术介绍
数据是当今世界能创造巨大价值的重要资源,而万维网(WorldWideWeb,简称Web)已成为数据发布、使用、消费的主流平台。各种持有大量数据集(dataset)的数据目录(datacatalog/catalogue)在Web上集中发布,形成一个个所谓的数据目录门户(datacatalogportal)或简称为数据门户(dataportal)。有的开放数据(opendata)目录门户中的数据集是供数据消费者(通常称为“用户”)免费使用的,如:包括2009年5月始启用的美国政府开放数据门户DATA.GOV(https://www.data.gov)和2012年12月始启用的欧盟开放数据门户(http://data.europa.eu)在内的全球数十个国家或地区及其所辖省市的数百个开放政府(opengovernment)数据门户;有的本文档来自技高网...
基于总体数据质量的主题数据集过滤与排序方法及系统

【技术保护点】
一种基于总体数据质量的主题数据集过滤与排序方法,包括下列步骤:S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。

【技术特征摘要】
1.一种基于总体数据质量的主题数据集过滤与排序方法,包括下列步骤:S1:根据用户在数据目录中搜索到的主题数据集和它们的质量元数据,在人机交互界中征询用户对数据集的数据质量要求;S2:根据用户对数据集的数据质量要求中所规定的质量度量值强制性要求,对主题数据集进行过滤;S3:根据用户对数据集的数据质量要求中所选用的质量度量指标及其权重,计算出过滤后的主题数据集的总体数据质量,并据此对主题数据集进行排序;S4:在人机交互界面中输出过滤并排序后的主题数据集信息。2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:首先,获取用户搜索数据目录所产生的主题数据集列表TDL=(d1,d2,…,dm),其中,数据集个数m≥1,数据集dj,j=1,2,…,m是数据目录中匹配用户搜索主题的数据集;其次,从数据目录中获取主题数据集列表TDL中全部数据集的质量元数据,包括:这些数据集所使用的全部质量度量指标Mi,i=1,2,…,s,s≥2,每个质量度量指标Mi所属的质量维Dimension(Mi)、该质量维所属的质量类别Category(Dimension(Mi)),每个质量度量指标Mi的值域,即允许取的最差质量度量值miw和最佳质量度量值mib,某个数据集dj在某个质量度量指标Mi上所拥有的若干个质量度量值msij;进一步地,所述质量度量指标的值域由数据质量管理领域专家事先确定,并作为一种质量元数据存储于数据目录中的数据集元数据中,具体值域规则如下:若Mi是数值型质量度量指标,则Mi上允许取的最差质量度量值miw为非负实数或infinity即正无穷大,允许取的最佳质量度量值mib为非负实数;若Mi是布尔型质量度量指标,则Mi上允许取的最差质量度量值miw和最佳质量度量值mib均为false或true,即假或真,在事后的数据集总体数据质量计算过程中,布尔型质量度量值false与true总是分别转换成实数值0与1;再次,根据已获取的上述数据集的质量元数据在人机交互界中显示用户对数据集的数据质量要求征询表,包括通过质量度量指标来对应地连接的左、右两部分,分别为质量度量指标信息显示部分、用户的数据质量要求征询部分;进一步地,所述位于左部的质量度量指标信息显示部分以每个质量度量指标为表行,全部表行按质量类别-质量维-质量度量指标的嵌套层次进行组织,其中,每个表行依次包括:质量度量指标Mi的名称,Mi上允许取的最差质量度量值miw和最佳质量度量值mib;所述位于右部的用户的数据质量要求征询部分同样以每个质量度量指标为表行,并与左部的对应表行进行连接,其中,每个表行用于收集用户的数据质量要求信息,依次包括:哪些质量度量指标Mi在数据集总体数据质量计算中被选用而成为已选用的质量度量指标i=1,2,…,t,t≤s,每个已选用的质量度量指标在数据集总体数据质量计算中的权重wi,要求满足wi≥0且数据集在那些已选用的质量度量指标上的实际质量度量值应满足怎样的强制性要求,即:用户为有质量度量值强制性要求的质量度量指标i∈{1,2,…,t}规定一个起码质量度量值thresholdi,要求thresholdi好于上允许取的最差质量度量值miw,其中,布尔型质量度量指标的thresholdi必定是上允许取的最佳质量度量值mib;最后,将从征询表中收集到的上述信息记录于用户的数据质量要求UserQualityNeeds。3.根据权利要求1或2所述的方法,其特征在于,所述步骤S2进一步包括:首先,对主题数据集列表TDL中的每个数据集dj,j=1,2,…,m,只要dj在用户已选用的且已规定其质量度量值强制性要求的某个质量度量指标i∈{1,2,…,t}上没有质量度量值或有一个质量度量值msij不满足该质量度量值强制性要求,即msij坏于用户已规定的thresholdi,就把数据集dj从TDL中移除,所述“坏于”的具体判定标准如下:对布尔型质量度量指标若msij≠thresholdi,则msij坏于thresholdi;对数值型质量度量指...

【专利技术属性】
技术研发人员:许卓明夏文泽卫洁
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1