【技术实现步骤摘要】
一种实体匹配方法、系统、介质及设备
本专利技术涉及数据库
,特别涉及一种实体匹配方法、系统、介质及设备。
技术介绍
随着经济的不断发展,人们生活当中围绕着大量的数据,而数据之间的不一致以及数据的大量冗余,给人们的生活带来诸多不便。为了将不同来源的数据进行融合,人们在实体匹配方面做了大量的研究工作,其目的在于发现不同数据集中表示同一实体的实体对。目前大部分的实体匹配方法是基于结构化数据的,但是,当数据集中的结构化数据较少,不能反映待匹配的实体关系时,以往方法的匹配结果就会大大降低。所以,通过怎样的一种方法来提高实体的匹配准确率,是本领域技术人员亟待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种实体匹配方法、系统、介质及设备,以提高实体匹配的准确率。其具体方案如下:一种实体匹配方法,包括:根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;利用逆文档频率算法提取所述第一数据块和所述第二数据块中文 ...
【技术保护点】
1.一种实体匹配方法,其特征在于,包括:根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度 ...
【技术特征摘要】
1.一种实体匹配方法,其特征在于,包括:根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;若是,则将所述实体对判定为同一实体。2.根据权利要求1所述的方法,其特征在于,所述根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块的过程,包括:利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有相同属性值的实体进行分块处理,得到第一目标数据块;利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有空缺值的实体进行分块处理,得到第二目标数据块;将所述第一目标数据块中具有同一属性的相同属性值的实体进行分块处理,得到所述第一数据块;将所述第二目标数据块中除去空缺值之外的其它具有同一属性的相同属性值的实体进行分块处理,得到所述第二数据块。3.根据权利要求1所述的方法,其特征在于,所述利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度的过程,包括:利用所述逆文档频率算法提取所述第一数据块和所述第二数据块中任意实体所对应文本数据中的关键信息wj;其中,wj为提取到的第j个关键信息,j为提取到的关键信息的个数;将所述第一数据块和所述第二数据块中满足预设字符串长度范围的文本数据作为候选短语;以候选短语所在位置的所述第一数据块或所述第二数据块为文档库,利用所述逆文档频率算法获取各个候选短语的逆文档频率得分;利用逆文档频率得分大于预设逆文档频率得分的候选短语构造全局短语向量;其中,所述全局短语向量的表达式为:Pg={w1,w2,...,wg};式中,wi为逆文档频率得分超过所述预设逆文档频率得分的第i个候选短语,g为逆文档频率得分超过所述预设逆文档频率得分的候选短语的个数,i≥1,g≥1,1≤i≤g;判断关键信息wj是否存在于所述全局短语向量中,根据判断结果构造所述第一数据块或所述第二数据块中任意实体的特征向量,并利用特征向量构建任意实体对的比较向量;其中,任意实体的特征向量的表达式为:Vk={bool(rk,w1),bool(rk,w2),...,bool(rk,wk)},式中,rk为所述待匹配数据表中的第k个实体,wk为所述第k个实体的关键信息,1≤k≤g;利用第一相似度模型计算与各个比较向量对应实体对的第一相似度;其中,所述第一相似度模型的表达式为:式中,ri和rj为所述第一数据块或所述第二数据块中的任意两个实体,Vi和Vj为实体ri和实体rj所对应的特征向量,wp和wq分别为与实体ri和实体rj对应的候选短语,1≤p≤g,1≤q≤g。4.根据权利要求1所述的方法,其特征在于,所述对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并计算与各个子主题对应实体对的第二相似度的过程,包括:利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度切分,得到分词片段;利用第二预设分词工具对各个分词片段进行细粒度切分,得到分词短语;若分词短语中的第一分词短语和第二分词短语出现在同一个分词片段中,则在所述第一分词短语和所述第二分词短语之间添加边;其中,所述第一分词短语和所述第二分词短语为分词短语中的任意两个分词短语;利用第一频繁度模型计算所述第一分词短语和所述第二分词短语在分词片段中出现的第一频率;其中,所述第一频繁度模型的表达式为:式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,gapct(pi,pj)为所述第一分词短语pi和所述第二分词短语pj在文本数据ct中的距离,为惩罚因子,bool(pi,pj)为减少所述第一分词短语pi和所述第二分词短语pj的影响因子,1≤i≤n,1≤j≤n,n为切分所得的分词短语的个数;将所述第一频率输入至第二频繁度模型,输出得到所述第一分词短语和所述第二分词短语在文档库中出现的第二频率;其中,所述文档库为所述第一分词短语或所述第二分词短语所属位置的所述第一数据块或所述第二数据块;所述第二频繁度模型的表达式为:Freq(pi,pj)=Σct∈Tfreq(ct,pi,pj);式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,T为所述文档库;将所述第二频率输入至短语关联度模型,输出得到所述第一分词短语和所述第二分词短语的关联度,并利用所述关联度对所述第一分词短语和所述第二分词短语之间的边进行标记;其中,所述短语关联度模型的表达式为:式中,pi为所述第一分词短语,pj为所述第二分词短语,p为分词短语中除去所述第一分词短语pi和所述第二分词短语pj的其它分词短语,为所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。