【技术实现步骤摘要】
一种实体匹配的方法及装置
本专利技术涉及数据分析
,具体而言,涉及一种实体匹配的方法及装置。
技术介绍
随着社交媒体的不断发展,社交媒体逐渐成为人们获取信息资讯的主要方式,越来越多的人群选择参考社交媒体平台中的信息,制定目标方案,基于多种因素的影响,目标方案并不唯一,在第一目标方案无法实施时,如何高效的寻求相似的替代方案,成为当前迫切需要解决的问题。例如,与明星等实体相关的内容在社交媒体平台中具有较高的讨论热度,在影视、综艺节目选角或是品牌选择代言人推广时,在确定第一顺位人选的同时,还需确定一些与第一顺位人选相似的明星作为备选,以便当第一顺位明星档期不合时,还有多种可选方案,避免延误后续方案的实施进程。目前,在确定与第一顺位人选相似的备选时,通过获取社交媒体平台上粉丝群的个人信息,例如,性别,年龄,爱好等,将第一顺位人选的粉丝群与其他明星的粉丝群进行匹配,获取与第一顺位人选的粉丝群重合度较大的粉丝群对应的明星作为备选,从而实现实体的匹配。这种实体匹配的方法,由于不同社交媒体平台中用户信息存储格式不同,因此,在匹 ...
【技术保护点】
1.一种实体匹配的方法,其特征在于,所述方法包括:/n获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;/n依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;/n从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;/n获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;/n计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;/n依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。/n
【技术特征摘要】
1.一种实体匹配的方法,其特征在于,所述方法包括:
获取训练文本信息,对所述训练文本信息进行分词,得到实体词库;
依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵;
从所述实体词库中获取待匹配实体映射的目标实体词,从所述词向量矩阵中,获取所述目标实体词对应的行向量;
获取所述词向量矩阵中除所述目标实体词对应的列向量之外的其他词向量对应的候选列向量;
计算所述目标实体词对应的行向量与所述候选列向量的余弦相似度;
依据计算得到的余弦相似度确定与所述待匹配实体相匹配的实体。
2.根据权利要求1所述的方法,其特征在于,所述获取训练文本信息,对所述训练文本信息进行分词,得到实体词库,包括:
从社交媒体平台上爬取文本信息,得到所述训练文本信息;
对所述训练文本信息进行分词,基于分词结果,合并所述分词结果中的重复词,得到所述实体词库。
3.根据权利要求1所述的方法,其特征在于,所述依据所述实体词库中两两实体词在所述训练文本信息中同时出现的频次,构建实体词向量矩阵,包括:
依据所述实体词库中包含的实体词,构建实体词行向量,每一实体词对应一实体词行向量,所述实体词行向量的列数为统计的所述实体词库中包含的实体词个数;
针对每一所述实体词行向量,统计该实体词行向量对应的实体词与所述实体词库中的实体词在所述训练文本信息中同时出现的频次,填入该实体词行向量对应的列。
4.根据权利要求1所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,包括:
对所述待匹配实体进行分词,得到待匹配分词结果,从所述实体词库中,获取与所述待匹配分词结果相匹配的目标实体词。
5.根据权利要求4所述的方法,其特征在于,所述从所述实体词库中获取待匹配实体映射的目标实体词,还包括:
若从所述实体词库中,获取不到与所述待匹配分词结果相匹配的目标实体词,从社交媒体平台上,爬取包含所述待匹配分词结果的补充文本信息,对...
【专利技术属性】
技术研发人员:张梦醒,
申请(专利权)人:精硕科技北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。