一种实体匹配的方法及装置制造方法及图纸

技术编号:24252002 阅读:74 留言:0更新日期:2020-05-22 23:48
本发明专利技术提供了一种实体匹配的方法及装置,其中,该实体匹配的方法通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量,获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量,计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度,依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。这样,可以提高实体匹配的效率。

A method and device of entity matching

【技术实现步骤摘要】
一种实体匹配的方法及装置
本专利技术涉及数据分析
,具体而言,涉及一种实体匹配的方法及装置。
技术介绍
随着社交媒体的不断发展,社交媒体逐渐成为人们获取信息资讯的主要方式,越来越多的人群选择参考社交媒体平台中的信息,制定目标方案,基于多种因素的影响,目标方案并不唯一,在第一目标方案无法实施时,如何高效的寻求相似的替代方案,成为当前迫切需要解决的问题。例如,与明星等实体相关的内容在社交媒体平台中具有较高的讨论热度,在影视、综艺节目选角或是品牌选择代言人推广时,在确定第一顺位人选的同时,还需确定一些与第一顺位人选相似的明星作为备选,以便当第一顺位明星档期不合时,还有多种可选方案,避免延误后续方案的实施进程。目前,在确定与第一顺位人选相似的备选时,通过获取社交媒体平台上粉丝群的个人信息,例如,性别,年龄,爱好等,将第一顺位人选的粉丝群与其他明星的粉丝群进行匹配,获取与第一顺位人选的粉丝群重合度较大的粉丝群对应的明星作为备选,从而实现实体的匹配。这种实体匹配的方法,由于不同社交媒体平台中用户信息存储格式不同,因此,在匹配过程中,难以分析跨平台获取的数据信息,例如,不同格式的信息无法匹配,造成匹配资源的浪费,或是匹配错误,使得匹配结果的可信度不高,导致实体匹配的效率较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供实体匹配的方法及装置,以提高实体匹配的效率。第一方面,本专利技术实施例提供了实体匹配的方法,所述方法包括:获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:从社交媒体平台上爬取文本信息,得到所述训练文本信息;对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对所述补充文本信息进行分词;基于分词结果,将不同于所述实体词库中的实体词补充至所述实体词库中;基于补充的实体词,对所述实体词向量矩阵进行更新。结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述获取所述目标实体词对应的行向量,包括:判断获取的所述目标实体词对应的行向量是否唯一;若否,通过矩阵运算法则,合并所述目标实体词对应的行向量。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体,包括:判断所述计算得到的余弦相似度是否超过预设的相似度阈值;若是,则确定所述计算得到的余弦相似度对应的候选列向量对应的实体与所述待匹配实体相匹配。第二方面,本专利技术实施例还提供了一种实体匹配的装置,所述装置包括:词库构建模块,用于获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;矩阵构建模块,用于依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;行向量获取模块,用于从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;列向量获取模块,用于获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;相似度计算模块,用于计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;实体匹配模块,用于依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实体匹配的方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实体匹配的方法的步骤。本专利技术实施例提供的实体匹配的方法及装置,通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量,获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量,进而计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度,依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。这样,通过获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,然后依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,由于所述实体匹配的方法利用的是具有实际讨论内容的文本信息,提高了匹配结果的可信度,并且文本信息在不同的社交媒体平台中格式相同,因此减少了对匹配资源的浪费,进而提高了实体匹配的效率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本本文档来自技高网...

【技术保护点】
1.一种实体匹配的方法,其特征在于,所述方法包括:/n获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;/n依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;/n从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;/n获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;/n计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;/n依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。/n

【技术特征摘要】
1.一种实体匹配的方法,其特征在于,所述方法包括:
获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。


2.根据权利要求1所述的方法,其特征在于,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:
从社交媒体平台上爬取文本信息,得到所述训练文本信息;
对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。


3.根据权利要求1所述的方法,其特征在于,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。


4.根据权利要求1所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。


5.根据权利要求4所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对...

【专利技术属性】
技术研发人员:张梦醒
申请(专利权)人:精硕科技北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1