面向数据空间的实体解析方法技术

技术编号:21913957 阅读:23 留言:0更新日期:2019-08-21 12:25
面向数据空间的实体解析方法,本发明专利技术涉及实体解析方法。本发明专利技术的目的是为了解决现有在数据空间中进行实体解析时,要对记录进行对比,对于不同领域的记录对,匹配概率很小,成对对比会浪费资源的问题。过程为:步骤一、构建记录图:步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。本发明专利技术用于数据实体解析领域。

Entity parsing method for data space

【技术实现步骤摘要】
面向数据空间的实体解析方法
本专利技术涉及实体解析方法。
技术介绍
实体解析是指识别同一实体的不同描述形式的过程,旨在保障数据质量,是数据清理、数据集成及数据挖掘中的关键技术[1](VasilisEfthymiou,KostasStefanidis,VassilisChristophides.BigDataEntityResolution:FromHighlytoSomehowSimilarEntityDescriptionsintheWeb[C]//ProceedingBigData’15Proceedingsofthe2015IEEEInternationalConferenceonBigData,2015,11(1):401-410P)。在传统的实体解析工作中,大部分工作依赖于数据之间的模式或语义映射。数据空间是一种新的数据集成方式,它没有严格的数据模式及语义映射,而是根据主体的需求逐渐将数据纳入并建立关系,是一种异质数据集合,其特点是数据来自多个数据源[2](葛敬军,胡长军,刘歆.面向领域科学的虚拟数据空间共享模型[J].小型微型计算机系统,2014,35(3):514-519PGEJingjun,HUChangjun,LIUXin.VirtualDataSpaceSharingModelforDomainScience[J].MinicomputerSystem,2014,35(13):514-519P)。在数据空间中进行实体解析时,就失去了实体解析的有力工具,语义映射。实体解析要对记录进行对比,对于不同领域的记录对,匹配概率很小,成对对比会浪费资源。
技术实现思路
本专利技术的目的是为了解决现有在数据空间中进行实体解析时,要对记录进行对比,对于不同领域的记录对,匹配概率很小,成对对比会浪费资源的问题,而提出面向数据空间的实体解析方法。面向数据空间的实体解析方法具体过程为:步骤一、构建记录图:步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。本专利技术的有益效果为:本专利技术提出了分块技术[3](BatyaKening,AvigdorGal.MFIBlocks:Aneffectiveblockingalgorithmforentityresolution[J].InformationSystems,2013,38(6):908-926P),即利用一种代价较低的计算方法对数据进行预判,即可能属于同一实体的数据记录放在一个块中,仅在块内进行记录对比。解决了现有在数据空间中进行实体解析时,要对记录进行对比,对于不同领域的记录对,匹配概率很小,成对对比会浪费资源的问题。本文面向数据空间对多源异质数据实体解析进行理论研究。考虑到即使在无语义映射下,指向同一实体的两条记录在其属性值上也有共同点,并且将记录之间的关系纳入计算,综合两者构建记录图。针对不同情况的记录集合,通过其适用的剪枝方法,简化记录图,并提出了根据剪枝后的记录图进行分块的算法。在块内做实体解析时,利用属性值对属性做映射,通过获取块内整体数据记录的属性名所指代的信息,将块内与现有数据有共同值但仍不匹配的数据区分开来,并提出一种类似于正则表达式的方法,计算属性值的相似度,并对匹配记录的映射属性的属性值进行合并,以返回给用户一个较为全面的实体信息。通过实验验证,本专利技术中所提出的方法对于实体解析有一定的正向推动作用。附图说明图1为本专利技术构建记录图流程图;图2为本专利技术对记录图进行剪枝流程图;图3为根据剪枝后的记录图进行分块流程图;图4a为异质属性映射的数据图;图4b为异质属性映射的全局属性映射图;图4c为异质属性映射的属性映射集群的优度计算图;图5a为在两个数据集上,两种方法随与之的变化情况图;图5b为在两个数据集上,两种方法随与之的变化情况图;图6为两种算法的实体生成对比图。具体实施方式具体实施方式一:本专利技术实施方式面向数据空间的实体解析方法具体过程为:步骤一、构建记录图:步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析工作,从而排除误纳入此块,指向其他实体的数据记录。具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中构建记录图;具体过程为:使用一种标签方法表示数据记录,将数据记录看做一个属性值集合;此时基于一种常识性假设[4]([4]S.PrabhakarBenny,S.VasaviDr,P.Anupriya.HadoopFrameworkForEntityResolutionWithinHighVelocityStreams[J].ProcediaComputerScience,2016,85:550-557P),如果两个记录指向同一实体,则它们必然包含一些相同的属性值。并将数据记录间的关系计算在内,提高准确性[5](肖启华,陈珂,黄冬梅.考虑空间相关性的数据空间特征提取法方法[J].计算机仿真,2014,31(12):425-428,433PXIAOQihua,CHENKe,HUANGDongmei.DataSpatialFeatureExtractionMethodConsideringSpatialRelevance[J].ComputerSimulation,2014,31(12):425-428,433P)。利用一个记录图模型来表示数据空间中的记录结点及记录结点关系;通过计算两条记录之间的相似度,在两条记录之间画一条边,边权为相似度值。这种标签风格的分块方法,由于其表示方法简单,只需要获取记录的属性值,而不依赖固定的数据模式和强硬射的语义,所以在面对数据空间的异质数据集上,可以有着很强大的适用性。设有记录集合R={r1{FullName:TomLloydMalik;Job:producer,Actor;Address:L.A.},r2{Name:TomMalik;Producer;birthPlace:L.A.},r3{Label:MikeStyles;Profession:producer;Place_of_birth:L.A.;Place_of_birth:1964},r4{MikeHarryStyles;birthPlace:L.A.;Gender:male},r5{FullName:HarryGreen;Address:LOS;Sex:male;Profession:Writher},r6{Label:HarryGreen;Gender:male;birthYear:1980;married}}。基于记录集合R的记录图分块方法概览如图1、图2、图3所示(为了简化示例图,图中记录集合暂不标记它们的关系)。步骤一一、计算两条记录之间的相似度;步骤一二、根据数据空间的记录和相似度构建记录图。其它步骤及参数与具体实施方式一相同。具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤一一中计算两条记录之间的相似度;具体过程为:标签转换函数本文档来自技高网
...

【技术保护点】
1.面向数据空间的实体解析方法,其特征在于:所述方法具体过程为:步骤一、构建记录图;步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。

【技术特征摘要】
1.面向数据空间的实体解析方法,其特征在于:所述方法具体过程为:步骤一、构建记录图;步骤二、采用剪枝方法简化记录图;步骤三、对剪化后的记录图进行分块处理;步骤四、建立属性映射集群;步骤五、计算属性映射集的优度;步骤六、得到属性映射集群中各个映射集的优度后,在块内进行实体解析。2.根据权利要求1所述面向数据空间的实体解析方法,其特征在于:所述步骤一中构建记录图;具体过程为:步骤一一、计算两条记录之间的相似度;步骤一二、根据数据空间的记录和相似度构建记录图。3.根据权利要求2所述面向数据空间的实体解析方法,其特征在于:所述步骤一一中计算两条记录之间的相似度;具体过程为:步骤一一一、计算标签相似度:通过标签转换函数tag()将记录转为标签集合,计算两条记录的标签相似度,记为simtag(ri,rj):其中,T(ri)为通过标签转换函数将记录ri转换成的规范化标签集;T(rj)为通过标签转换函数将记录rj转换成的规范化标签集;步骤一一二、计算关系相似度:整合了两条记录所具有的所有关系上的综合相似度,记为simrel(ri,rj):其中,Nbr(ri)表示与记录ri在rel关系上有连接的记录集合,Nbr(rj)表示与记录rj在rel关系上有连接的记录集合,REL表示在记录r1、r2上出现的所有的记录关系集合;步骤一一三、整合标签相似度和关系相似度,得出综合相似度sim(ri,rj):sim(ri,rj)=α·simtag(ri,rj)+(1-α)·simrel(ri,rj)其中,α表示标签相似度的权值。4.根据权利要求3所述面向数据空间的实体解析方法,其特征在于:所述步骤一二中根据数据空间的记录和相似度构建记录图;具体过程为:给定一个数据空间的记录集合R,构建一个无向图G=(R,E),称之为记录图;其中R为记录集合,代表数据空间中的记录;E为边集,两个记录之间存在一条边代表记录对的相似度。5.根据权利要求4所述面向数据空间的实体解析方法,其特征在于:所述步骤二中采用剪枝方法简化记录图;具体过程为:剪枝方法采用边中心化的基数剪枝、结点中心化的基数剪枝、边中心化的阈值剪枝或结点中心化的阈值剪枝中的一种;(1)边中心化的基数剪枝:全局基数阈值k指定了记录图要保留边的总数,保留k条权值最大的边;(2)结点中心化的基数剪枝:对于每个结点ri,保留连接结点ri的top-k权值的边;(3)边中心化的阈值剪枝:利用权重阈值在全局范围进行剪枝,选取最小边权wmin,遍历图中所有边,将权值低于wmin的边删除;(4)结点中心化的阈值剪枝:对记录图的所有结点采用一个统一的阈值,剪枝过程与边中心化的权值剪枝方案相同。6.根据权利要求5所述面向数据空间的实体解析方法,其特征在于:所述步骤三中对剪化后的记录图进行分块处理;具体过程为:剪枝后的图为G={R,E},R为记录集合,E为边集;任取一个记录ri,创建一个块bi并将ri放置于bi中,若ri点区域中的结点rj与bi中所有结点均有边相连,则将rj放置于bi中,并删除rj与bi中所有结点的相连边,重复此操作直至遍历ri的所有邻居结点;此时,若bi中的结点在图中变成一个孤立的结点,无边与之相连,则从图中删除此结点;重复步骤三直至图G为空;此时,分块工作完成,得到块集合B={b1,b2,...,b|B|}。7.根据权利要求6所述面向数据空间的实体解析方法,其特征在于:所述步骤四中建立属性映射集群;具体过程为:步骤四一、对于来自不同实体的两个属性,计算属性的相似值:属性的相似值,记为SV...

【专利技术属性】
技术研发人员:周连科赵昱杰张毅苏畅王红滨王念滨崔琎
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1