【技术实现步骤摘要】
面向数据空间的实体解析方法
本专利技术涉及实体解析方法。
技术介绍
实体解析是指识别同一实体的不同描述形式的过程,旨在保障数据质量,是数据清理、数据集成及数据挖掘中的关键技术[1](VasilisEfthymiou,KostasStefanidis,VassilisChristophides.BigDataEntityResolution:FromHighlytoSomehowSimilarEntityDescriptionsintheWeb[C]//ProceedingBigData’15Proceedingsofthe2015IEEEInternationalConferenceonBigData,2015,11(1):401-410P)。在传统的实体解析工作中,大部分工作依赖于数据之间的模式或语义映射。数据空间是一种新的数据集成方式,它没有严格的数据模式及语义映射,而是根据主体的需求逐渐将数据纳入并建立关系,是一种异质数据集合,其特点是数据来自多个数据源[2](葛敬军,胡长军,刘歆.面向领域科学的虚拟数据空间共享模型[J].小型微型计算机系统,2014,35(3):514-519PGEJingjun,HUChangjun,LIUXin.VirtualDataSpaceSharingModelforDomainScience[J].MinicomputerSystem,2014,35(13):514-519P)。在数据空间中进行实体解析时,就失去了实体解析的有力工具,语义映射。实体解析要对记录进行对比,对于不同领域的记录对,匹配概率很小,成对对比会浪费 ...
【技术保护点】
1.面向数据空间的实体解析方法,其特征在于:所述方法具体过程为:步骤一、构建记录图;步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。
【技术特征摘要】
1.面向数据空间的实体解析方法,其特征在于:所述方法具体过程为:步骤一、构建记录图;步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。2.根据权利要求1所述面向数据空间的实体解析方法,其特征在于:所述步骤一中构建记录图;具体过程为:步骤一一、计算两条记录之间的相似度;步骤一二、根据数据空间的记录和相似度构建记录图。3.根据权利要求2所述面向数据空间的实体解析方法,其特征在于:所述步骤一一中计算两条记录之间的相似度;具体过程为:步骤一一一、计算标签相似度:通过标签转换函数tag()将记录转为标签集合,计算两条记录的标签相似度,记为simtag(ri,rj):其中,T(ri)为通过标签转换函数将记录ri转换成的规范化标签集;T(rj)为通过标签转换函数将记录rj转换成的规范化标签集;步骤一一二、计算关系相似度:整合了两条记录所具有的所有关系上的综合相似度,记为simrel(ri,rj):其中,Nbr(ri)表示与记录ri在rel关系上有连接的记录集合,Nbr(rj)表示与记录rj在rel关系上有连接的记录集合,REL表示在记录r1、r2上出现的所有的记录关系集合;步骤一一三、整合标签相似度和关系相似度,得出综合相似度sim(ri,rj):sim(ri,rj)=α·simtag(ri,rj)+(1-α)·simrel(ri,rj)其中,α表示标签相似度的权值。4.根据权利要求3所述面向数据空间的实体解析方法,其特征在于:所述步骤一二中根据数据空间的记录和相似度构建记录图;具体过程为:给定一个数据空间的记录集合R,构建一个无向图G=(R,E),称之为记录图;其中R为记录集合,代表数据空间中的记录;E为边集,两个记录之间存在一条边代表记录对的相似度。5.根据权利要求4所述面向数据空间的实体解析方法,其特征在于:所述步骤二中采用剪枝方法简化记录图;具体过程为:剪枝方法采用边中心化的基数剪枝、结点中心化的基数剪枝、边中心化的阈值剪枝或结点中心化的阈值剪枝中的一种;(1)边中心化的基数剪枝:全局基数阈值k指定了记录图要保留边的总数,保留k条权值最大的边;(2)结点中心化的基数剪枝:对于每个结点ri,保留连接结点ri的top-k权值的边;(3)边中心化的阈值剪枝:利用权重阈值在全局范围进行剪枝,选取最小边权wmin,遍历图中所有边,将权值低于wmin的边删除;(4)结点中心化的阈值剪枝:对记录图的所有结点采用一个统一的阈值,剪枝过程与边中心化的权值剪枝方案相同。6.根据权利要求5所述面向数据空间的实体解析方法,其特征在于:所述步骤三中对剪化后的记录图进行分块处理;具体过程为:剪枝后的图为G={R,E},R为记录集合,E为边集;任取一个记录ri,创建一个块bi并将ri放置于bi中,若ri点区域中的结点rj与bi中所有结点均有边相连,则将rj放置于bi中,并删除rj与bi中所有结点的相连边,重复此操作直至遍历ri的所有邻居结点;此时,若bi中的结点在图中变成一个孤立的结点,无边与之相连,则从图中删除此结点;重复步骤三直至图G为空;此时,分块工作完成,得到块集合B={b1,b2,...,b|B|}。7.根据权利要求6所述面向数据空间的实体解析方法,其特征在于:所述步骤四中建立属性映射集群;具体过程为:步骤四一、对于来自不同实体的两个属性,计算属性的相似值:属性的相似值,记为SV...
【专利技术属性】
技术研发人员:周连科,赵昱杰,张毅,苏畅,王红滨,王念滨,崔琎,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。