一种影视类属性数据源间的周期性实体匹配方法及系统技术方案

技术编号:31811369 阅读:13 留言:0更新日期:2022-01-08 11:14
本发明专利技术公开一种影视类属性数据源间的周期性实体匹配方法及系统,包括:向第一数据源中添加多条第一记录;获取对第二数据源构建的第一索引和第二索引;在索引中搜索第一记录的标题和别名,得到多个候选记录对;向第二数据源添加上述记录对中的涉及的多条第二记录;依次计算每个候选记录对中第一记录和第二记录在各维度的相似度;将各维度相似度输入相似度融合模型,得到综合相似度;综合相似度大于阈值则确定候选记录对中第一记录与第二记录匹配成功,更新第一记录的实体匹配状态字典为匹配,并保存匹配成功的候选记录对。本发明专利技术能在有限训练数据资源、计算资源和存储资源下,高效完成实体匹配任务,并且支持匹配结果的可解释性。释性。释性。

【技术实现步骤摘要】
一种影视类属性数据源间的周期性实体匹配方法及系统


[0001]本专利技术涉及实体匹配
,特别是涉及一种影视类属性数据源间的周期性实体匹配方法及系统。

技术介绍

[0002]实体匹配是知识图谱和自然语言处理的交叉任务。实体匹配是为了解决知识融合问题,即从同构或异构数据源间(或知识图谱间)匹配所有代表相同实体的记录对映射的过程,或是在真实世界中识别出给定实体的实例映射。例如,在电商场景下会遇到判断分别来自两个平台的商品是否是对应同一商品;在电影视频推荐场景下,会遇到判断两个视频是否对应同一电影;在知识图谱融合场景下,会遇到匹配来自两个图谱间的全部实体对的映射关系。这些业务都可以泛化成或表示成融合外部数据源来补充和拓展内部数据源的需求。在处理这类需求的时候,首要待解决的任务就是可以将数据源间的记录进行匹配成对。这个记录对的匹配是通过计算记录间的属性相似度来实现的。因此相似度的计算模型很大程度上决定了精确度和召回率等方面的匹配效果。上述这种任务称作实体匹配任务,因为考虑到记录与现实世界中的实体存在一一映射的关系。
[0003]具体到影视类属性数据的实体匹配,可通过下述例子说明:考虑两个不同来源的影视类属性数据集合A和B。集合A中的任一条记录a_i都可以映射某一影视实体e_k,如果遍历集合B存在记录b_j也指向了实体e_k,那么可以说记录对(a_i,b_j)成功匹配。之后实体匹配的任务的结果可被应用到多种下游的任务,例如使用b_j补全或者拓展a_i的属性。
[0004]针对影视类属性数据进行实体匹配,当前的解决方法中常用的一类是基于深度学习的方式。这类基于深度学习的方法,虽然可以解决很多通用领域的问题,但是深度学习模型需要大量训练数据来训练模型,因此在训练数据资源紧张的情况下深度学习模型很难收敛。而且深度模型不可解释性也一直被诟病。此外,随着待匹配数据集合规模的增长,如何降低计算和存储资源也是算法设计时需要重点考虑的方面。另外,由于整个过程经常需要人工干预和专家知识的输入,所以如何减少人工的工作量也是提升实体匹配方法的优化方向。基于此,本领域亟需一种针对低训练数据资源的实体匹配的新方法,以在有限的计算和存储资源以及人工标注量下,高效完成实体匹配任务,并且支持匹配结果的可解释性。

技术实现思路

[0005]本专利技术的目的是提供一种影视类属性数据源间的周期性实体匹配方法及系统,能够在有限的计算资源、存储资源和训练数据资源下,高效的完成实体匹配任务,并且支持匹配结果的可解释性。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种影视类属性数据源间的周期性实体匹配方法,所述方法包括:
[0008]获取第一数据源;
[0009]向所述第一数据源中添加多条第一记录,并将每条所述第一记录的实体匹配状态
字典初始化成未匹配;每条所述第一记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;
[0010]获取第二数据源的第一索引和第二索引;所述第一索引是对第二数据源的标题属性构建的索引;所述第二索引是对第二数据源的别名属性构建的索引;所述第二数据源包括多条第二记录;每条所述第二记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;
[0011]依次取一条所述第一记录,在所述第一索引中搜索所述第一记录的标题,并在所述第二索引中搜索所述第一记录的别名,得到搜索结果;所述搜索结果包括一条或多条所述第二记录的标识码;
[0012]根据所述搜索结果得到一个或多个候选记录对;所述候选记录对包括一个第一记录和所述搜索结果中的一个第二记录的标识码;
[0013]根据所述候选记录对中所述第二记录的标识码获取所述第二数据源中对应的第二记录,得到所述候选记录对中所述第一记录对应的第二记录;
[0014]依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录在各维度的相似度,得到各维度相似度;所述各维度相似度包括上映时间相似度、导演相似度、主演相似度和简介相似度;
[0015]将所述各维度相似度输入相似度融合模型,得到所述候选记录对中所述第一记录和所述第一记录对应的第二记录的综合相似度;所述相似度融合模型包括多层感知器模型和逻辑回归模型;
[0016]判断所述综合相似度是否大于设定阈值;
[0017]若所述综合相似度大于所述设定阈值,则确定所述候选记录对中所述第一记录与所述第一记录对应的第二记录匹配成功,更新所述候选记录对中的所述第一记录的实体匹配状态字典为匹配,并保存匹配成功的所述候选记录对。
[0018]可选地,所述获取第一数据源,之前还包括:
[0019]构建第一数据源;所述第一数据源包括影视剧的标题属性、别名属性、上映时间属性、导演属性、主演属性和简介属性。
[0020]可选地,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的各维度相似度,具体包括:
[0021]依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度;
[0022]依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度;
[0023]依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的主演相似度;
[0024]依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的简介相似度。
[0025]可选地,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度,具体包括:
[0026]获取上映时间的年权重、月权重和日权重;所述年权重、所述月权重和所述日权重
之和为1;
[0027]比较所述第一记录中上映时间的年和所述第一记录对应的第二记录中上映时间的年是否相同;
[0028]若年相同,则确定年相似度为1;
[0029]若年不相同,则确定年相似度为0;
[0030]比较所述第一记录中上映时间的月和所述第一记录对应的第二记录中上映时间的月是否相同;
[0031]若月相同,则确定月相似度为1;
[0032]若月不相同,则确定月相似度为0;
[0033]比较所述第一记录中上映时间的日和所述第一记录对应的第二记录中上映时间的日是否相同;
[0034]若日相同,则确定日相似度为1;
[0035]若日不相同,则确定日相似度为0;
[0036]将所述年相似度与所述年权重的乘积、所述月相似度与所述月权重的乘积以及所述日相似度与所述日权重的乘积进行求和操作,得到上映时间相似度。
[0037]可选地,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度,具体包括:
[0038]比较所述第一记录中导演和所述第一记录对应的第二记录中导演是否相同;
[0039]若导演相同,则确定导演相似度为1;
[0040]若导演不相同,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种影视类属性数据源间的周期性实体匹配方法,其特征在于,所述方法包括:获取第一数据源;向所述第一数据源中添加多条第一记录,并将每条所述第一记录的实体匹配状态字典初始化成未匹配;每条所述第一记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;获取第二数据源的第一索引和第二索引;所述第一索引是对第二数据源的标题属性构建的索引;所述第二索引是对第二数据源的别名属性构建的索引;所述第二数据源包括多条第二记录;每条所述第二记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;依次取一条所述第一记录,在所述第一索引中搜索所述第一记录的标题,并在所述第二索引中搜索所述第一记录的别名,得到搜索结果;所述搜索结果包括一条或多条所述第二记录的标识码;根据所述搜索结果得到一个或多个候选记录对;所述候选记录对包括一个第一记录和所述搜索结果中的一个第二记录的标识码;根据所述候选记录对中所述第二记录的标识码获取所述第二数据源中对应的第二记录,得到所述候选记录对中所述第一记录对应的第二记录;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录在各维度的相似度,得到各维度相似度;所述各维度相似度包括上映时间相似度、导演相似度、主演相似度和简介相似度;将所述各维度相似度输入相似度融合模型,得到所述候选记录对中所述第一记录和所述第一记录对应的第二记录的综合相似度;所述相似度融合模型包括多层感知器模型和逻辑回归模型;判断所述综合相似度是否大于设定阈值;若所述综合相似度大于所述设定阈值,则确定所述候选记录对中所述第一记录与所述第一记录对应的第二记录匹配成功,更新所述候选记录对中的所述第一记录的实体匹配状态字典为匹配,并保存匹配成功的所述候选记录对。2.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述获取第一数据源,之前还包括:构建第一数据源;所述第一数据源包括影视剧的标题属性、别名属性、上映时间属性、导演属性、主演属性和简介属性。3.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的各维度相似度,具体包括:依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的主演相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的简
介相似度。4.根据权利要求3所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度,具体包括:获取上映时间的年权重、月权重和日权重;所述年权重、所述月权重和所述日权重之和为1;比较所述第一记录中上映时间的年和所述第一记录对应的第二记录中上映时间的年是否相同;若年相同,则确定年相似度为1;若年不相同,则确定年相似度为0;比较所述第一记录中上映时间的月和所述第一记录对应的第二记录中上映时间的月是否相同;若月相同,则确定月相似度为1;若月不相同,则确定月相似度为0;比较所述第一记录中上映时间的日和所述第一记录对应的第二记录中上映时间的日是否相同;若日相同,则确定日相似度为1;若日不相同,则确定日相似度为0;将所述年相似度与所述年权重的乘积、所述月相似度与所述月权重的乘积以及所述日相似度与所述日权重的乘积进行求和操作,得到上映时间相似度。5.根据权利要求3所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度,具体包括:比较所述第一记录中导演和所述第一记录对应的第二记录中导演是否相同;若导演相同,则确定导演相似度为1;若导演不相同,则确定导演相似度为0。6....

【专利技术属性】
技术研发人员:赵春光李凯东林桢杰陈珊珊李孟禹赵亦喆
申请(专利权)人:央视频融媒体发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1