一种对提取的Web表格数据进行集成的方法及装置制造方法及图纸

技术编号:14991224 阅读:63 留言:0更新日期:2017-04-03 22:24
本发明专利技术公开了对提取的Web表格数据进行集成的方法及装置,能够提高对Web表格数据进行集成形成的数据库准确性。包括:获取Web表格语料库;获取每个表格的候选语义;计算每个表格的候选语义与数据语义的不一致性;若不一致性大于第一预定阈值,表格候选语义不正确,利用众包确认该表格的候选语义,根据该表格语义似然值和众包反馈结果重新计算该表格候选语义,并重新计算不一致性;若不一致性大于第二预定阈值小于第一预定阈值,利用知识库和众包模式确认该表格中数据正确性,重新计算不一致性;若不一致性小于第二预定阈值,该表格候选语义正确,对该表格中的数据进行标注;确定所有表格候选语义均正确时,进行模式映射和数据清洗。

【技术实现步骤摘要】

本专利技术属于Web数据处理领域,特别涉及一种对提取的Web表格数据进行集成的方法及装置
技术介绍
随着Internet的快速发展,Web上的数据信息成为一个巨大的信息仓库。对Web的信息进行提取可以帮助人们快速准确的查找信息,加快获取信息的速度,提高工作效率,例如,可以提取不同网站上的餐厅名称,菜肴种类,价格等。但是,对提取的Web表格数据进行集成建立统一的数据库中,存在着许多质量问题,例如,表格本身很少明确描述每一张表格的语义,标题行只在少数情况存在,即使有标题行,它们的列名称也有时是无意义的或是不可靠的。同时,web表格中常常含有错误和不一致的数据,脏数据将导致经济损失和错误决策。为了在应用中能够利用这些数据,必须对Web表格数据进行集成处理建立一个正确、完整的数据库。传统的方法一般采用模式映射或者数据清洗来解决这个问题,但是,在web表格集成中,简单的串行处理模式映射与数据清洗并不能工作得很好。现有模式映射方法没有显式假定脏数据的存在,大多数数据修正和冲突解决算法则专注于单一的不一致的表格。在web表格集成中,每一张表格都可能含有歧义和错误的数据,而且每一张表格的模式信息并不总是能获得,表格的语义常常需要从数据本身去发现。如果表格语义是基于脏数据发现的,可能会出现数据和语义之间的不一致性。因此,如何提高对Web表格数据进行集成处理形成的数据库的准确性是目前研究的一大重点。
技术实现思路
本专利技术提供了一种对提取的Web表格数据进行集成的方法及装置,能够有效地提高对Web表格数据进行集成处理形成的数据库的准确性。为了实现上述目的,本专利技术提供如下技术方案:第一方面,本专利技术提供一种对提取的Web表格数据进行集成的方法,所述方法包括:对Web表格进行提取获取一含有噪声的Web表格语料库;将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中每个表格的候选语义,并计算每个表格的列及列对映射到其表格候选语义的似然值;计算每个表格的候选语义与其表格中数据语义的不一致性;若表格的不一致性大于第一预定阈值,则确定该表格候选语义不正确,利用众包模式来确认该表格的候选语义,并根据计算的该表格语义的似然值和众包反馈的结果重新计算该表格的候选语义,根据重新计算得到的表格候选语义重新计算其与该表格中数据语义的不一致性;若表格的不一致性大于第二预定阈值并小于所述第一预定阈值,则利用知识库和众包模式确认该表格中数据的正确性,并根据知识库和众包反馈的数据的正确性重新计算该表格候选语义与其表格中数据语义的不一致性,其中,所述第二预定阈值小于所述第一预定阈值;若表格的不一致性小于所述第二预定阈值,则确定该表格候选语义正确,根据该表格候选语义对该表格中的数据进行标注;当确定所述Web表格语料库中的所有表格候选语义均正确时,进行模式映射以建立不同表格间的语义对应关系,并对识别出的错误数据进行数据清洗和修正。优选的是,所述的对提取的Web表格数据进行集成的方法,所述若表格的不一致性大于第一预定阈值,则确定该表格候选语义不正确,利用众包模式来确认该表格的候选语义具体包括:若确定表格候选语义不正确,则计算该表格中列或列对的效用值;根据所述列或列对的效用值,选出多个列或列对,并根据所述选出的多个列或列对创建相应的语义验证问题发布至众包平台并搜集用户的反馈。优选的是,所述的对提取的Web表格数据进行集成的方法,所述若确定表格候选语义不正确,则计算该表格中列或列对的效用值包括:根据该表格中列或列对的不确定性参数、语义质量参数、表内和表间的影响力参数计算列或列对的效用值。优选的是,所述的对提取的Web表格数据进行集成的方法,所述若表格的不一致性大于第二预定阈值并小于所述第一预定阈值,则利用知识库和众包模式确认该表格中数据的正确性包括:利用知识库对表格中的数据进行确认以确定其正确性;若表格中存在不能利用知识库确定其正确性的数据,则选取出列或列对的没有被知识库覆盖的数据,并根据所述选取出的数据创建相应的数据验证问题发布至众包平台并搜集用户的反馈,根据众包反馈的结果来确定所述不能利用知识库确定的数据的正确性。优选的是,所述的对提取的Web表格数据进行集成的方法,所述若表格的不一致性小于所述第二预定阈值,则确定该表格候选语义正确,根据该表格候选语义对该表格中的数据进行标注包括:通过知识库验证表格中的数据是否符合该表格候选语义来标注数据为正确的或非正确的;若通过知识库不能确定表格中的数据是否符合该表格候选语义,则将不能确定的表格数据发布至众包平台并搜集用户的反馈,根据众包反馈的结果对所述不能确定的表格数据进行标注。优选的是,所述的对提取的Web表格数据进行集成的方法,所述将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中每个表格的候选语义包括:将所述Web表格语料库中每个表格中的每一列中的每一个数据均映射到知识库中,然后选取与之相关的资源类别及其父类作为每个表格中每个列的候选数据类别;通过检索每个表格中所有数据对之间存在的关系及其父关系选取该表格中列对之间的候选关系;每个表格中列的候选数据类型和列对之间的候选关系构成每个表格的候选语义。第二方面,本专利技术提供一种对提取的Web表格数据进行集成的装置,所述装置包括:获取单元,其用于获取一含有噪声的Web表格语料库;映射单元,其用于将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中每个表格的候选语义;第一计算单元,其用于计算所述Web表格语料库中每个表格的列及列对映射到其表格候选语义的似然值;第二计算单元,其用于计算每个表格的候选语义与其表格中数据语义的不一致性;判断单元,其用于判断不一致性和第一预定阈值、第二预定阈值之间的关系;确定单元,其用于若不一致性大于所述第一预定阈值,确定该表格候选语义不正确;确认单元,其用于若不一致性大于所述第一预定阈值,则确定该表格候选语义不正确,利用众包模式确认该表格的候选语义;第三计算单元,其用于若不一致性大于所述第一预定阈值,则确定该表格候选语义不正确,利用众包模式确认该表格的候选语义,根据所述第一计算单元计算的表格语义的似然值和所述众包反馈的结果重新计算该表格的候选语义;所述确认单元还用于若不一致性大于所述第二预定阈值并小于所述第一预定阈值,则利用知识库和众包模式确认该表格中数据的正确性;所述确定单元还本文档来自技高网...

【技术保护点】
一种对提取的Web表格数据进行集成的方法,其特征在于,所述方法包括:对Web表格进行提取获取一含有噪声的Web表格语料库;将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中每个表格的候选语义,并计算每个表格的列及列对映射到其表格候选语义的似然值;计算每个表格的候选语义与其表格中数据语义的不一致性;若表格的不一致性大于第一预定阈值,则确定该表格候选语义不正确,利用众包模式来确认该表格的候选语义,并根据计算的该表格语义的似然值和众包反馈的结果重新计算该表格的候选语义,根据重新计算得到的表格候选语义重新计算其与该表格中数据语义的不一致性;若表格的不一致性大于第二预定阈值并小于所述第一预定阈值,则利用知识库和众包模式确认该表格中数据的正确性,并根据知识库和众包反馈的数据的正确性重新计算该表格候选语义与其表格中数据语义的不一致性,其中,所述第二预定阈值小于所述第一预定阈值;若表格的不一致性小于所述第二预定阈值,则确定该表格候选语义正确,根据该表格候选语义对该表格中的数据进行标注;当确定所述Web表格语料库中的所有表格候选语义均正确时,进行模式映射以建立不同表格间的语义对应关系,并对识别出的错误数据进行数据清洗和修正。...

【技术特征摘要】
1.一种对提取的Web表格数据进行集成的方法,其特征在于,所述方法包括:
对Web表格进行提取获取一含有噪声的Web表格语料库;
将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料
库中每个表格的候选语义,并计算每个表格的列及列对映射到其表格候选语义的似然值;
计算每个表格的候选语义与其表格中数据语义的不一致性;
若表格的不一致性大于第一预定阈值,则确定该表格候选语义不正确,利用众包模式
来确认该表格的候选语义,并根据计算的该表格语义的似然值和众包反馈的结果重新计算
该表格的候选语义,根据重新计算得到的表格候选语义重新计算其与该表格中数据语义的
不一致性;
若表格的不一致性大于第二预定阈值并小于所述第一预定阈值,则利用知识库和众包
模式确认该表格中数据的正确性,并根据知识库和众包反馈的数据的正确性重新计算该表
格候选语义与其表格中数据语义的不一致性,其中,所述第二预定阈值小于所述第一预定
阈值;
若表格的不一致性小于所述第二预定阈值,则确定该表格候选语义正确,根据该表格
候选语义对该表格中的数据进行标注;
当确定所述Web表格语料库中的所有表格候选语义均正确时,进行模式映射以建立
不同表格间的语义对应关系,并对识别出的错误数据进行数据清洗和修正。
2.如权利要求1所述的对提取的Web表格数据进行集成的方法,其特征在于,所述
若表格的不一致性大于第一预定阈值,则确定该表格候选语义不正确,利用众包模式来确
认该表格的候选语义具体包括:
若确定表格候选语义不正确,则计算该表格中列或列对的效用值;
根据所述列或列对的效用值,选出多个列或列对,并根据所述选出的多个列或列对创
建相应的语义验证问题发布至众包平台并搜集用户的反馈。
3.如权利要求2所述的对提取的Web表格数据进行集成的方法,其特征在于,所述
若确定表格候选语义不正确,则计算该表格中列或列对的效用值包括:根据该表格中列或
列对的不确定性参数、语义质量参数、表内和表间的影响力参数计算列或列对的效用值。
4.如权利要求1所述的对提取的Web表格数据进行集成的方法,其特征在于,所述

\t若表格的不一致性大于第二预定阈值并小于所述第一预定阈值,则利用知识库和众包模式
确认该表格中数据的正确性包括:
利用知识库对表格中的数据进行确认以确定其正确性;
若表格中存在不能利用知识库确定其正确性的数据,则选取出列或列对的没有被知识
库覆盖的数据,并根据所述选取出的数据创建相应的数据验证问题发布至众包平台并搜集
用户的反馈,根据众包反馈的结果来确定所述不能利用知识库确定的数据的正确性。
5.如权利要求1所述的对提取的Web表格数据进行集成的方法,其特征在于,所述
若表格的不一致性小于所述第二预定阈值,则确定该表格候选语义正确,根据该表格候选
语义对该表格中的数据进行标注包括:
通过知识库验证表格中的数据是否符合该表格候选语义来标注数据为正确的或非正
确的;
若通过知识库不能确定表格中的数据是否符合该表格候选语义,则将不能确定的表格
数据发布至众包平台并搜集用户的反馈,根据众包反馈的结果对所述不能确定的表格数据
进行标注。
6.如权利要求1所述的对提取的Web表格数据进行集成的方法,其特征在于,所述
将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中
每个表格的候选语义包括:
将所述Web表格语料库中每个表格中的每一列中的每一个数据均映射到知识库中,
然后选取与之相关的资源类别及其父类作为每个表格中每个列的候选数据类别;
通过检索每个表格中所有数据对之间存在的关系及其父关系选取该表格中列对之间
的候选关系;
每个表格中列的候选数据类型和列对之间的候选关系构成每个表格的候选语义。
7.一种对提取的Web表格数据进行集成的装置,其特征在于,所述装置包括:
获取单元,其用于获取一含有噪声的Web表格语料库;
映射单...

【专利技术属性】
技术研发人员:鲜学丰赵朋朋崔志明
申请(专利权)人:江苏省现代企业信息化应用支撑软件工程技术研发中心
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1