选择具有快照关系的网络表格的方法及装置制造方法及图纸

技术编号:10733440 阅读:88 留言:0更新日期:2014-12-10 10:34
本发明专利技术公开了一种选择具有快照关系的网络表格的方法及装置,该方法包括:将网络表格的集合按照网络表格的实体列的内容的领域进行分类,其中,实体列为能够标识网络表格的记录的属性列;在分类后的网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格,其中,多个第二表格是与第一表格具有快照关系的网络表格。通过本发明专利技术,选择与第一表格具有快照关系的多个第二表格,第二表格可用于优化查询以提高查询的效率,也可以用于大数据环境,使得系统能够实时地返回部分查询结果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种选择具有快照关系的网络表格的方法及装置,该方法包括:将网络表格的集合按照网络表格的实体列的内容的领域进行分类,其中,实体列为能够标识网络表格的记录的属性列;在分类后的网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格,其中,多个第二表格是与第一表格具有快照关系的网络表格。通过本专利技术,选择与第一表格具有快照关系的多个第二表格,第二表格可用于优化查询以提高查询的效率,也可以用于大数据环境,使得系统能够实时地返回部分查询结果。【专利说明】选择具有快照关系的网络表格的方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种选择具有快照关系的网络表格的方法及装置。
技术介绍
随着信息技术的发展,互联网上的资源越来越丰富,除了非结构化数据外,还有大量的网络表存在,这些网络表覆盖面广且信息量大,因此受到人们的关注。Google公司启动了 WebTables项目,研究如何更好地抽取和利用网络上广泛存在的结构化数据;最近推出的Fus1n Tables旨在帮助人们在云环境下进行数据集成和合作,用户可以上传表格状的数据并与其他用户分享,通过合作的方式利用众人的智慧解决数据合并过程中可能引起的冲突。为了让机器更容易地处理来自网络的表格数据,Microsoft公司利用知识库对网络表进行语义恢复,恢复其表头,并实现实体列的探测以及典型属性的提取。 实践中,网络数据的价值不仅在于数据本身,还在于数据之间的关系。只有探测出数据间潜在的关系,方能更好地利用这些数据。Xin Luna Dong尝试发现网络数据间的复制关系,以便找到数据的真正来源,从而检测数据的真假。Anish Das Sarma等人发现表格之间的合并和连接关系,合并关系可以实现实体级的补充,而连接关系可以实现实体属性级的补充,这两种关联关系的发现不仅有助于表格内容的扩展,也给搜索带来了很大的帮助。以合并关系为例,如果一个体育爱好者想在已知表A中查找运动员“Rafael NadalIA记录,在该表没有这条记录的情况下,查询会失效。但是,如果我们事先已经发现另一张表与A表是合并关系,那么查询就可以转移到这张与A表具有合并关系的表上,从而增加了找至lJ“Rafael Nadal”的概率。除了复制、合并以及连接关系外,网络表格之间还可以存在其它可以利用的关系。 关系表之间的快照关系可以被用于优化查询。随着互联网数据抽取技术的发展,来自网络的结构化数据日益增多,它们可以和本地数据一起用于查询和分析。设想用户需要经常在一张规模较大的网络表T1中查找满足某个条件的元组信息,如果这部分元组恰好存在于另一张规模小很多的网络表T2中,将用户的查询转移到T2上进行,显然会大幅提高查询的效率。快照关系除了用于优化查询外,还有利于在大数据环境下实时地返回部分查询结果。大数据环境下,实时性和查询的精确性是需要权衡的,有时并不需要一次返回所有结果,快速返回部分结果也是有益的,而利用快照关系就可以较快地将一部分查询结果返回给用户。假设给定某种匹配条件,网络表T1中匹配该条件的元组存在于网络表T2中,T2就被称为T1匹配该条件的快照,发现网络表之间的快照关系具有重要的意义。 目前,数据管理系统需要融合来自不同源的数据,但不同源提供的数据往往会发生冲突,导致数据真假难辨。为了给用户提供更加可靠、可信的数据,Xin Luna Dong等人尝试检测数据间存在的复制关系,意在发现数据的本源,最终在冲突的数据中找出真值。为了探测出数据间的复制关系,Xin Luna Dong使用Bayes模型计算数据源之间的依赖程度。算法基于如下的基本思想:如果两个数据源提供的值都是真值,并不能说明两个数据源之间具有依赖关系;相反,在两个数据源提供的值都不正确,但值是相同的情况下,这两个数据源之间存在依赖关系的概率较大。于是,在已知两个数据源提供的值同为真、同为假但值相同、提供的值不同的情况下,分别考虑它们是独立的和依赖的两种情况,建立Bayes模型,最后得到两个数据源存在依赖关系(即复制关系)的概率。Xin Luna Dong提出检测数据间存在的复制关系,目的在于探测数据的真假性,以便有效地解决多源数据间的冲突问题。虽然,复制关系的发现也需要检测数据的相似性,但它处理的数据是以记录为单位,而网络表格间的快照关系,处理的数据是以表格为单位。网络表格并不规范,往往没有完整的模式,表中的数据还会存在噪音,即便同一实体,其表现形式也有差异,需要根据匹配条件综合考虑模式和实体的一致性。 综上所述,由于网络数据的异构性和不确定性,选择具有快照关系的网络表格需要解决的技术问题如下: (I)网络表格并不规范,往往没有完整的模式,表中的数据还会存在噪音,即便同一实体,其表现形式也有差异; (2)对于来自不同数据源的网络表格而言,很难找到能准确匹配的快照。只能根据匹配程度评分,返回评分较高的快照。 针对相关技术中选择具有快照关系的网络表格的方法存在的上述问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中选择具有快照关系的网络表格的方法存在的上述问题,本专利技术提供了一种选择具有快照关系的网络表格的方法及装置,以至少解决该问题。 一方面,提供了一种选择具有快照关系的网络表格的方法,包括:将网络表格的集合按照所述网络表格的实体列的内容的领域进行分类,其中,所述实体列为能够标识所述网络表格的记录的属性列;在所述分类后的所述网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格,其中,所述多个第二表格是与所述第一表格具有快照关系的网络表格。 优选地,在所述分类后的所述网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格包括: 分别确定所述网络表格集合中的每个表格在实体因素方面的如下参数:实体的覆盖率 Ebase I ο (T]_,T2 )、调节因素Eadjustmmt (T1, T2)和实体的新鲜度Fru(T2); 分别确定所述每个表格的实体因素 【权利要求】1.一种选择具有快照关系的网络表格的方法,其特征在于,包括: 将网络表格的集合按照所述网络表格的实体列的内容的领域进行分类,其中,所述实体列为能够标识所述网络表格的记录的属性列; 在所述分类后的所述网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格,其中,所述多个第二表格是与所述第一表格具有快照关系的网络表格。2.根据权利要求1所述的方法,其特征在于,在所述分类后的所述网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格包括: 分别确定所述网络表格集合中的每个表格在实体因素方面的如下参数:实体的覆盖率Ebase,。(T1, T2)、调节因素EadjustmmtCT1, T2)和实体的新鲜度Fr11(T2)表示T1表中满足条件σ的实体集合;分别确定所述每个表格的实体因素c /TT、77X* I (Ε?Η--σEadjmlmmt iTvTl)+M)Senlin.(TlJ2)=Fr (J2)*exp(--!---)□ 2.分别确定所述第一表格和每个表格的属性重合度SattrCr1, T2); 分别确定T2)和SattJT1, T2)的运算的结果本文档来自技高网
...
选择具有快照关系的网络表格的方法及装置

【技术保护点】
一种选择具有快照关系的网络表格的方法,其特征在于,包括:将网络表格的集合按照所述网络表格的实体列的内容的领域进行分类,其中,所述实体列为能够标识所述网络表格的记录的属性列;在所述分类后的所述网络表格集合中,根据预设规则,选择与第一表格对应的多个第二表格,其中,所述多个第二表格是与所述第一表格具有快照关系的网络表格。

【技术特征摘要】

【专利技术属性】
技术研发人员:王宁任红伟
申请(专利权)人:北京交通大学长三角研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1