一种基于集合相似度的商品实体匹配方法及装置制造方法及图纸

技术编号:31928561 阅读:40 留言:0更新日期:2022-01-15 13:16
本发明专利技术公开了一种基于集合相似度的商品实体匹配方法及装置,涉及人工智能技术领域。包括:获取平台知识库和待匹配知识库;将平台知识库和待匹配知识库输入到实体匹配模型;基于平台知识库、待匹配知识库以及实体匹配模型,输出实体匹配集合。本发明专利技术基于领域知识筛选实体,对以缩小匹配范围,使用优化的集合相似度计算实体对相似度,利用领域规则调整实体对排序,可有效提高多源异构数据中实体对齐的准确性,有效解决了传统智能化电商平台底层数据融合困难的问题,大幅减少人工干预,可为传统行业电商领域的可持续性发展提供新思路。统行业电商领域的可持续性发展提供新思路。统行业电商领域的可持续性发展提供新思路。

【技术实现步骤摘要】
一种基于集合相似度的商品实体匹配方法及装置


[0001]本专利技术涉及人工智能
,特别是指一种基于集合相似度的商品实体匹配方法及装置。

技术介绍

[0002]近年来,知识图谱因具有较好的组织,管理数据的能力,可以存储不同类型的数据以及复杂的实体关系并且拥有良好的数据流动效率,被广泛应用于需要大量知识的场景中,如拥有问答,搜索,推荐等需求的新型商业运营模式的电商行业系统中。在电商领域中,业务规模的不断扩展,出现了更加复杂的数据应用场景,非结构化的大量数据都是分散在各个来源而且基本是以非结构化文本方式来表示,数据互联的需求更加强烈,而对于用户需求的深度认知要求也在提高,在此背景下,已经出现了很多类型的电商领域知识图谱,如美团构建的餐饮娱乐知识图谱“美团大脑”可充分挖掘关联各个场景数据实现智能搜索和商圈美食的个性化推荐、阿里巴巴建设的电商认知图谱“AliCoCo”可认知用户需求实现更加智能的搜索和精准推荐、京东基于商品知识图谱的兴趣召回等。
[0003]而在构建行业电商领域的知识图谱的过程中,尤其是对于数据管理模式较为传统的传统电商行业本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于集合相似度的商品实体匹配方法,其特征在于,所述方法包括:S1、获取平台知识库和待匹配知识库;S2、将所述平台知识库和待匹配知识库输入到实体匹配模型;S3、基于所述平台知识库、待匹配知识库以及实体匹配模型,输出实体匹配集合。2.根据权利要求1所述的方法,其特征在于,所述实体匹配模型包括知识库划分模块、数据预处理模块、实体对匹配模块和实体对排序模块;所述S3中的基于所述平台知识库、待匹配知识库以及实体匹配模型,输出实体匹配集合包括:S31、将所述平台知识库和待匹配知识库输入到所述知识库划分模块,得到平台知识库的多组实体数据集合S={S1,S2,

,Sn}、待匹配知识库的多组实体数据集合S1={S11,S12,

,S1j};其中,其中,Sk∈S ,S1k∈S1;令k=1;S32、将所述S1k输入到所述数据预处理模块,得到预处理后的实体数据集合S1’
k;S33、将所述预处理后的实体数据集合S1’
k以及所述平台知识库的多组实体数据集合输入到所述实体对匹配模块,得到实体对匹配度;S34、将所述实体对匹配度输入到所述实体对排序模块,得到排序后的实体对数据集;S35、若k<j,则令k=k+1,转去执行S32,若k=j,则输出所有排序后的实体对数据集,即实体匹配集合。3.根据权利要求2所述的方法,其特征在于,所述S31中的将所述平台知识库和待匹配知识库输入到所述知识库划分模块,得到平台知识库的多组实体数据集合S={S1,S2,

,Sn}、待匹配知识库的多组实体数据集合S1={S11,S12,

,S1j},包括:将所述平台知识库和待匹配知识库输入到所述知识库划分模块,根据预先设定的产品名称词典,分别对所述平台知识库及待匹配知识库进行划分,得到平台知识库的多组实体数据集合S={S1,S2,

,Sn}、待匹配知识库的多组实体数据集合S1={S11,S12,

,S1j};其中,平台知识库的多组实体数据集合中的每组实体数据集合包括实体数据二维表;所述实体数据二维表包括多行及多列,其中第一列f1为实体名称列;第二列f2到第n列f
n
为实体属性列,设定m<n或m=n;当m<n时,所述实体属性列包括第二列f2到第m列f
m
的实体关键属性列,第m+1列f
m+1
到第n列f
n
的其他相关实体属性列;当m=n时,所述实体属性列包括第二列f2到第m列f
m
的实体关键属性列;待匹配知识库的多组实体数据集合中的每组实体数据集合包括实体数据二维表;所述实体数据二维表包括多行及多列,其中第一列g1为实体名称列;第二列g2到第j列g
j
为实体属性列,设定i<j或i=j;当i<j时,所述实体属性列包括第二列g2到第i列g
i
的实体关键属性列,第i+1列g
i+1
到第j列g
j
的其他相关实体属性列;当i=j时,所述实体属性列包括第二列g2到第i列g
i
的实体关键属性列。4.根据权利要求3所述的方法,其特征在于,所述S32中的将所述S1k输入到所述数据预处理模块,得到预处理后的实体数据集合S1’
k包括:S321、根据预先设定的分词词典对所述实体数据集合S1k进行原子化,得到原子化的实体数据集合;S322、将所述原子化后的实体数据集合进行去除冗余,得到去除冗余的实体数据集合;S323、将所述去除冗余后的实体数据集合进行单位转换,得到与所述平台知识库单位

【专利技术属性】
技术研发人员:张磊王文文任毅肖明明陈富强寇嘉敏
申请(专利权)人:鲁班北京电子商务科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1