面向数据空间的实体解析方法技术

技术编号：21913957 阅读：23 留言：0更新日期：2019-08-21 12:25

面向数据空间的实体解析方法，本发明专利技术涉及实体解析方法。本发明专利技术的目的是为了解决现有在数据空间中进行实体解析时，要对记录进行对比，对于不同领域的记录对，匹配概率很小，成对对比会浪费资源的问题。过程为：步骤一、构建记录图：步骤二、采用剪枝方法简化记录图；步骤三、对剪化后的记录图进行分块处理；步骤四、建立属性映射集群；步骤五、计算属性映射集的优度；步骤六、得到属性映射集群中各个映射集的优度后，在块内进行实体解析。本发明专利技术用于数据实体解析领域。

Entity parsing method for data space

全部详细技术资料下载

【技术实现步骤摘要】
面向数据空间的实体解析方法
本专利技术涉及实体解析方法。
技术介绍
实体解析是指识别同一实体的不同描述形式的过程，旨在保障数据质量，是数据清理、数据集成及数据挖掘中的关键技术[1](VasilisEfthymiou,KostasStefanidis,VassilisChristophides.BigDataEntityResolution:FromHighlytoSomehowSimilarEntityDescriptionsintheWeb[C]//ProceedingBigData’15Proceedingsofthe2015IEEEInternationalConferenceonBigData,2015,11(1):401-410P)。在传统的实体解析工作中，大部分工作依赖于数据之间的模式或语义映射。数据空间是一种新的数据集成方式，它没有严格的数据模式及语义映射，而是根据主体的需求逐渐将数据纳入并建立关系，是一种异质数据集合，其特点是数据来自多个数据源[2](葛敬军,胡长军,刘歆.面向领域科学的虚拟数据空间共享模型[J].小型微型计算机系统,2014,35(3):514-519PGEJingjun,HUChangjun,LIUXin.VirtualDataSpaceSharingModelforDomainScience[J].MinicomputerSystem,2014,35(13):514-519P)。在数据空间中进行实体解析时，就失去了实体解析的有力工具，语义映射。实体解析要对记录进行对比，对于不同领域的记录对，匹配概率很小，成对对比会浪费...

【技术保护点】
1.面向数据空间的实体解析方法，其特征在于：所述方法具体过程为：步骤一、构建记录图；步骤二、采用剪枝方法简化记录图；步骤三、对剪化后的记录图进行分块处理；步骤四、建立属性映射集群；步骤五、计算属性映射集的优度；步骤六、得到属性映射集群中各个映射集的优度后，在块内进行实体解析。

【技术特征摘要】
1.面向数据空间的实体解析方法，其特征在于：所述方法具体过程为：步骤一、构建记录图；步骤二、采用剪枝方法简化记录图；步骤三、对剪化后的记录图进行分块处理；步骤四、建立属性映射集群；步骤五、计算属性映射集的优度；步骤六、得到属性映射集群中各个映射集的优度后，在块内进行实体解析。2.根据权利要求1所述面向数据空间的实体解析方法，其特征在于：所述步骤一中构建记录图；具体过程为：步骤一一、计算两条记录之间的相似度；步骤一二、根据数据空间的记录和相似度构建记录图。3.根据权利要求2所述面向数据空间的实体解析方法，其特征在于：所述步骤一一中计算两条记录之间的相似度；具体过程为：步骤一一一、计算标签相似度：通过标签转换函数tag()将记录转为标签集合，计算两条记录的标签相似度，记为simtag(ri,rj)：其中，T(ri)为通过标签转换函数将记录ri转换成的规范化标签集；T(rj)为通过标签转换函数将记录rj转换成的规范化标签集；步骤一一二、计算关系相似度：整合了两条记录所具有的所有关系上的综合相似度，记为simrel(ri,rj)：其中，Nbr(ri)表示与记录ri在rel关系上有连接的记录集合，Nbr(rj)表示与记录rj在rel关系上有连接的记录集合，REL表示在记录r1、r2上出现的所有的记录关系集合；步骤一一三、整合标签相似度和关系相似度，得出综合相似度sim(ri,rj)：sim(ri,rj)＝α·simtag(ri,rj)+(1-α)·simrel(ri,rj)其中，α表示标签相似度的权值。4.根据权利要求3所述面向数据空间的实体解析方法，其特征在于：所述步骤一二中根据数据空间的记录和相似度构建记录图；具体过程为：给定一个数据空间的记录集合R，构建一个无向图G＝(R,E)，称之为记录图；其中R为记录集合，代表数据空间中的记录；E为边集，两个记录之间存在一条边代表记录对的相似度。5.根据权利要求4所述面向数据空间的实体解析方法，其特征在于：所述步骤二中采用剪枝方法简化记录图；具体过程为：剪枝方法采用边中心化的基数剪枝、结点中心化的基数剪枝、边中心化的阈值剪枝或结点中心化的阈值剪枝中的一种；(1)边中心化的基数剪枝：全局基数阈值k指定了记录图要保留边的总数，保留k条权值最大的边；(2)结点中心化的基数剪枝：对于每个结点ri，保留连接结点ri的top-k权值的边；(3)边中心化的阈值剪枝：利用权重阈值在全局范围进行剪枝，选取最小边权wmin，遍历图中所有边，将权值低于wmin的边删除；(4)结点中心化的阈值剪枝：对记录图的所有结点采用一个统一的阈值，剪枝过程与边中心化的权值剪枝方案相同。6.根据权利要求5所述面向数据空间的实体解析方法，其特征在于：所述步骤三中对剪化后的记录图进行分块处理；具体过程为：剪枝后的图为G＝{R,E}，R为记录集合，E为边集；任取一个记录ri，创建一个块bi并将ri放置于bi中，若ri点区域中的结点rj与bi中所有结点均有边相连，则将rj放置于bi中，并删除rj与bi中所有结点的相连边，重复此操作直至遍历ri的所有邻居结点；此时，若bi中的结点在图中变成一个孤立的结点，无边与之相连，则从图中删除此结点；重复步骤三直至图G为空；此时，分块工作完成，得到块集合B＝{b1,b2,...,b|B|}。7.根据权利要求6所述面向数据空间的实体解析方法，其特征在于：所述步骤四中建立属性映射集群；具体过程为：步骤四一、对于来自不同实体的两个属性，计算属性的相似值：属性的相似值，记为SV...

【专利技术属性】
技术研发人员：周连科，赵昱杰，张毅，苏畅，王红滨，王念滨，崔琎，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人