当前位置: 首页 > 专利查询>江苏省现代企业信息化应用支撑软件工程技术研发中心专利>正文

一种对提取的Web表格数据进行集成的方法及装置制造方法及图纸

技术编号：14991224 阅读：95 留言：0更新日期：2017-04-03 22:24

本发明专利技术公开了对提取的Web表格数据进行集成的方法及装置，能够提高对Web表格数据进行集成形成的数据库准确性。包括：获取Web表格语料库；获取每个表格的候选语义；计算每个表格的候选语义与数据语义的不一致性；若不一致性大于第一预定阈值，表格候选语义不正确，利用众包确认该表格的候选语义，根据该表格语义似然值和众包反馈结果重新计算该表格候选语义，并重新计算不一致性；若不一致性大于第二预定阈值小于第一预定阈值，利用知识库和众包模式确认该表格中数据正确性，重新计算不一致性；若不一致性小于第二预定阈值，该表格候选语义正确，对该表格中的数据进行标注；确定所有表格候选语义均正确时，进行模式映射和数据清洗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于Web数据处理领域，特别涉及一种对提取的Web表格数据进行集成的方法及装置。
技术介绍
随着Internet的快速发展，Web上的数据信息成为一个巨大的信息仓库。对Web的信息进行提取可以帮助人们快速准确的查找信息，加快获取信息的速度，提高工作效率，例如，可以提取不同网站上的餐厅名称，菜肴种类，价格等。但是，对提取的Web表格数据进行集成建立统一的数据库中，存在着许多质量问题，例如，表格本身很少明确描述每一张表格的语义，标题行只在少数情况存在，即使有标题行，它们的列名称也有时是无意义的或是不可靠的。同时，web表格中常常含有错误和不一致的数据，脏数据将导致经济损失和错误决策。为了在应用中能够利用这些数据，必须对Web表格数据进行集成处理建立一个正确、完整的数据库。传统的方法一般采用模式映射或者数据清洗来解决这个问题，但是，在web表格集成中，简单的串行处理模式映射与数据清洗并不能工作得很好。现有模式映射方法没有显式假定脏数据的存在，大多数数据修正...

【技术保护点】
一种对提取的Web表格数据进行集成的方法，其特征在于，所述方法包括：对Web表格进行提取获取一含有噪声的Web表格语料库；将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中每个表格的候选语义，并计算每个表格的列及列对映射到其表格候选语义的似然值；计算每个表格的候选语义与其表格中数据语义的不一致性；若表格的不一致性大于第一预定阈值，则确定该表格候选语义不正确，利用众包模式来确认该表格的候选语义，并根据计算的该表格语义的似然值和众包反馈的结果重新计算该表格的候选语义，根据重新计算得到的表格候选语义重新计算其与该表格中数据语义的不一致性；若表格的不一致性大于第二预定阈值...

【技术特征摘要】
1.一种对提取的Web表格数据进行集成的方法，其特征在于，所述方法包括：
对Web表格进行提取获取一含有噪声的Web表格语料库；
将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料
库中每个表格的候选语义，并计算每个表格的列及列对映射到其表格候选语义的似然值；
计算每个表格的候选语义与其表格中数据语义的不一致性；
若表格的不一致性大于第一预定阈值，则确定该表格候选语义不正确，利用众包模式
来确认该表格的候选语义，并根据计算的该表格语义的似然值和众包反馈的结果重新计算
该表格的候选语义，根据重新计算得到的表格候选语义重新计算其与该表格中数据语义的
不一致性；
若表格的不一致性大于第二预定阈值并小于所述第一预定阈值，则利用知识库和众包
模式确认该表格中数据的正确性，并根据知识库和众包反馈的数据的正确性重新计算该表
格候选语义与其表格中数据语义的不一致性，其中，所述第二预定阈值小于所述第一预定
阈值；
若表格的不一致性小于所述第二预定阈值，则确定该表格候选语义正确，根据该表格
候选语义对该表格中的数据进行标注；
当确定所述Web表格语料库中的所有表格候选语义均正确时，进行模式映射以建立
不同表格间的语义对应关系，并对识别出的错误数据进行数据清洗和修正。
2.如权利要求1所述的对提取的Web表格数据进行集成的方法，其特征在于，所述
若表格的不一致性大于第一预定阈值，则确定该表格候选语义不正确，利用众包模式来确
认该表格的候选语义具体包括：
若确定表格候选语义不正确，则计算该表格中列或列对的效用值；
根据所述列或列对的效用值，选出多个列或列对，并根据所述选出的多个列或列对创
建相应的语义验证问题发布至众包平台并搜集用户的反馈。
3.如权利要求2所述的对提取的Web表格数据进行集成的方法，其特征在于，所述
若确定表格候选语义不正确，则计算该表格中列或列对的效用值包括：根据该表格中列或
列对的不确定性参数、语义质量参数、表内和表间的影响力参数计算列或列对的效用值。
4.如权利要求1所述的对提取的Web表格数据进行集成的方法，其特征在于，所述

\t若表格的不一致性大于第二预定阈值并小于所述第一预定阈值，则利用知识库和众包模式
确认该表格中数据的正确性包括：
利用知识库对表格中的数据进行确认以确定其正确性；
若表格中存在不能利用知识库确定其正确性的数据，则选取出列或列对的没有被知识
库覆盖的数据，并根据所述选取出的数据创建相应的数据验证问题发布至众包平台并搜集
用户的反馈，根据众包反馈的结果来确定所述不能利用知识库确定的数据的正确性。
5.如权利要求1所述的对提取的Web表格数据进行集成的方法，其特征在于，所述
若表格的不一致性小于所述第二预定阈值，则确定该表格候选语义正确，根据该表格候选
语义对该表格中的数据进行标注包括：
通过知识库验证表格中的数据是否符合该表格候选语义来标注数据为正确的或非正
确的；
若通过知识库不能确定表格中的数据是否符合该表格候选语义，则将不能确定的表格
数据发布至众包平台并搜集用户的反馈，根据众包反馈的结果对所述不能确定的表格数据
进行标注。
6.如权利要求1所述的对提取的Web表格数据进行集成的方法，其特征在于，所述
将所述Web表格语料库中的所有表格数据均映射到知识库中获取所述Web表格语料库中
每个表格的候选语义包括：
将所述Web表格语料库中每个表格中的每一列中的每一个数据均映射到知识库中，
然后选取与之相关的资源类别及其父类作为每个表格中每个列的候选数据类别；
通过检索每个表格中所有数据对之间存在的关系及其父关系选取该表格中列对之间
的候选关系；
每个表格中列的候选数据类型和列对之间的候选关系构成每个表格的候选语义。
7.一种对提取的Web表格数据进行集成的装置，其特征在于，所述装置包括：
获取单元，其用于获取一含有噪声的Web表格语料库；
映射单...

【专利技术属性】
技术研发人员：鲜学丰，赵朋朋，崔志明，
申请(专利权)人：江苏省现代企业信息化应用支撑软件工程技术研发中心，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人