当前位置: 首页 > 专利查询>广州大学专利>正文

一种实体匹配方法和装置制造方法及图纸

技术编号:30687204 阅读:11 留言:0更新日期:2021-11-06 09:19
本发明专利技术涉及实体匹配技术领域,公开了一种实体匹配方法和装置,所述方法包括:获取第一数据集和第二数据集,数据集包括若干条实体记录,实体记录包括若干个属性;获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,根据实体记录中多个属性间的预设潜在关系,将第三数据集中每个实体记录进行句子组合,获得包括第二组合的第四数据集;将第四数据集中的第二组合输入到预设的Bert模型,Bert模型用于判断第二组合的两个句子否匹配并输出匹配结果。有益效果:将第三数据集中的实体记录替换为根据属性潜在关系生成的句子,可以使第二组合输入到Bert模型中的数据保留属性之间的联系,使数据集的实体记录匹配结果更加准确。使数据集的实体记录匹配结果更加准确。使数据集的实体记录匹配结果更加准确。

【技术实现步骤摘要】
一种实体匹配方法和装置


[0001]本专利技术涉及实体匹配
,特别是涉及一种实体匹配方法和装置。

技术介绍

[0002]实体匹配的目标是识别出同一现实世界的实体在不同数据源中的异构表达。实体匹配是知识融合的重要的步骤,但是现实世界存在多源异构的数据环境,例如结构化的数据、脏数据、文本化的数据等。这些多源异构环境需要被着重考虑,并且需要有针对性的处理方法。
[0003]在实体匹配的任务中,待匹配的数据为A,B两个数据集,A,B中分别包含若干条实体记录,每一条实体记录包含一个实体的若干个属性,A,B具有相同的属性。A,B两个数据集是两个不同来源的数据集,两个数据集中分别存在很多描述现实世界同一实体的实体记录,实体匹配任务的目标是找到第一数据集,B中所有匹配的实体记录对。例如,每一个匹配的实体记录对由两条分别来自第一数据集和B的实体记录tA和tB组成,tA和tB描述了同一现实世界实体,第一数据集中可能存在多条实体记录ti和第二数据集的tB对应。
[0004]现有技术中存在一些实体匹配方法,但是这些实体匹配方法往往直接采用实体记录进行匹配,没有考虑实体记录中属性之间的关系,造成匹配结果有较大的误差,因此需要对现有的实体匹配方法进行改进,体高实体匹配的准确性。

技术实现思路

[0005]本专利技术的目的是:提供一种实体匹配方法和装置,综合考虑实体记录的内容,提高实体匹配的准确性。
[0006]为了实现上述目的,本专利技术提供了一种实体匹配方法,包括:
[0007]获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性。
[0008]获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合。
[0009]根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合。
[0010]将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果。
[0011]进一步的,在得到第三数据集之后,对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的第一组合。
[0012]进一步的,所述对第三数据集进行阻断操作,具体的方法包括:属性相等阻断和基于规则阻断;
[0013]所述属性相等阻断具体为:判断每一组第一组合中两个实体记录的多个属性值是否相等,若存在第一数量的属性值均不相等,则删除此第一组合,若不存在第一数量的属性值均相等,则保留此第一组合,所述第一数量小于实体记录的属性个数。
[0014]所述基于规则阻断具体为:判断每一组第一组合中两个实体记录的属性值是否同时满足预设的第一条件,若满足第一条件则保留,若不满足第一条件则删除。
[0015]进一步的,在对第三数据集进行阻断操作之后,对第三数据集进行第一预处理,使经过第一预处理的第三数据集满足SBert模型输入标准。
[0016]进一步的,根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,具体为:
[0017]获取实体记录中任意两个属性之间的潜在关系,并将获取任意两个属性根据潜在关系所组成的短语;
[0018]将得到的多个短语组成句子;
[0019]将得到的句子按照句子和实体记录的对应关系替换到第三数据集中。
[0020]进一步的,所述Bert模型具体为SBert模型,所述SBert模型包括采用权值共享孪生神经网络的第一Bert模型和第二Bert模型;第二组合输入到SBert模型时,所述第一Bert模型和第二Bert模型分别用于处理第二组合中的两个句子,且保存每个句子所转化的实体嵌入向量。
[0021]进一步的,当后输入的第二组合中的句子已经被SBert模型处理过时,调用保存的实体嵌入向量进行匹配判断。
[0022]进一步的,所述通过实体嵌入向量比较每组第二组合中的两个句子是否匹配,具体为:
[0023]计算第二组合中两个句子所对应的实体嵌入向量的余弦相似度,并判断所述余弦相似度的值是否大于等于预设的第一阈值,若大于等于第一阈值,则确定第一组合中的两个句子相匹配,若小于第一阈值则确定第一组合中的两个句子不相匹配。
[0024]本专利技术还公开了一种实体匹配装置,其特征在于,包括第一获取模块、第二获取模块、第一处理模块和第二处理模块。
[0025]所述第一获取模块,用于获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性。
[0026]所述第二获取模块,用于获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合。
[0027]所述第一处理模块,用于根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合。
[0028]所述第二处理模块,用于将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果。
[0029]进一步的,所述匹配装置还包括设置在第二获取模块和第一处理模块之间的第三处理模块。
[0030]所述第三处理模块,用于对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的组合。
[0031]本专利技术实施例一种实体匹配方法和装置与现有技术相比,其有益效果在于:将第三数据集中的实体记录替换为根据属性潜在关系生成的句子,可以使第二组合输入到Bert模型中的数据保留属性之间的联系,使数据集的实体记录匹配结果更加准确。
附图说明
[0032]图1是本专利技术一种实体匹配方法的流程示意图;
[0033]图2是本专利技术一种实体匹配装置的结构示意图。
具体实施方式
[0034]下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0035]实施例1:
[0036]参照附图1,本专利技术公开了一种实体匹配方法,应用于不同数据集之间的实体匹配,主要步骤包括:
[0037]步骤S1,获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体匹配方法,其特征在于,包括:获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性;获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合;根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合;将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果。2.根据权利要求1所述的一种实体匹配方法,其特征在于,还包括:在得到第三数据集之后,对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的第一组合。3.根据权利要求2所述的一种实体匹配方法,其特征在于,所述对第三数据集进行阻断操作,具体的方法包括:属性相等阻断和基于规则阻断;所述属性相等阻断具体为:判断每一组第一组合中两个实体记录的多个属性值是否相等,若存在第一数量的属性值均不相等,则删除此第一组合,若不存在第一数量的属性值均相等,则保留此第一组合,所述第一数量小于实体记录的属性个数;所述基于规则阻断具体为:判断每一组第一组合中两个实体记录的属性值是否同时满足预设的第一条件,若满足第一条件则保留,若不满足第一条件则删除。4.根据权利要求2所述的一种实体匹配方法,其特征在于,还包括:在对第三数据集进行阻断操作之后,对第三数据集进行第一预处理,使经过第一预处理的第三数据集满足SBert模型输入标准。5.根据权利要求1所述的一种实体匹配方法,其特征在于,根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,具体为:获取实体记录中任意两个属性之间的潜在关系,并将获取任意两个属性根据潜在关系所组成的短语;将得到的多个短语组成句子;将得到的句子按照句子和实体记录的对应关系替换到第三数据集中。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:周琥晨李默涵张雨成顾钊铨韩伟红唐可可
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1