【技术实现步骤摘要】
一种影视类属性数据源间的周期性实体匹配方法及系统
[0001]本专利技术涉及实体匹配
,特别是涉及一种影视类属性数据源间的周期性实体匹配方法及系统。
技术介绍
[0002]实体匹配是知识图谱和自然语言处理的交叉任务。实体匹配是为了解决知识融合问题,即从同构或异构数据源间(或知识图谱间)匹配所有代表相同实体的记录对映射的过程,或是在真实世界中识别出给定实体的实例映射。例如,在电商场景下会遇到判断分别来自两个平台的商品是否是对应同一商品;在电影视频推荐场景下,会遇到判断两个视频是否对应同一电影;在知识图谱融合场景下,会遇到匹配来自两个图谱间的全部实体对的映射关系。这些业务都可以泛化成或表示成融合外部数据源来补充和拓展内部数据源的需求。在处理这类需求的时候,首要待解决的任务就是可以将数据源间的记录进行匹配成对。这个记录对的匹配是通过计算记录间的属性相似度来实现的。因此相似度的计算模型很大程度上决定了精确度和召回率等方面的匹配效果。上述这种任务称作实体匹配任务,因为考虑到记录与现实世界中的实体存在一一映射的关系。
[0003]具体到影视类属性数据的实体匹配,可通过下述例子说明:考虑两个不同来源的影视类属性数据集合A和B。集合A中的任一条记录a_i都可以映射某一影视实体e_k,如果遍历集合B存在记录b_j也指向了实体e_k,那么可以说记录对(a_i,b_j)成功匹配。之后实体匹配的任务的结果可被应用到多种下游的任务,例如使用b_j补全或者拓展a_i的属性。
[0004]针对影视类属性数据进行实体匹配,当前 ...
【技术保护点】
【技术特征摘要】
1.一种影视类属性数据源间的周期性实体匹配方法,其特征在于,所述方法包括:获取第一数据源;向所述第一数据源中添加多条第一记录,并将每条所述第一记录的实体匹配状态字典初始化成未匹配;每条所述第一记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;获取第二数据源的第一索引和第二索引;所述第一索引是对第二数据源的标题属性构建的索引;所述第二索引是对第二数据源的别名属性构建的索引;所述第二数据源包括多条第二记录;每条所述第二记录均包括影视剧的标题、别名、上映时间、导演、主演和简介;依次取一条所述第一记录,在所述第一索引中搜索所述第一记录的标题,并在所述第二索引中搜索所述第一记录的别名,得到搜索结果;所述搜索结果包括一条或多条所述第二记录的标识码;根据所述搜索结果得到一个或多个候选记录对;所述候选记录对包括一个第一记录和所述搜索结果中的一个第二记录的标识码;根据所述候选记录对中所述第二记录的标识码获取所述第二数据源中对应的第二记录,得到所述候选记录对中所述第一记录对应的第二记录;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录在各维度的相似度,得到各维度相似度;所述各维度相似度包括上映时间相似度、导演相似度、主演相似度和简介相似度;将所述各维度相似度输入相似度融合模型,得到所述候选记录对中所述第一记录和所述第一记录对应的第二记录的综合相似度;所述相似度融合模型包括多层感知器模型和逻辑回归模型;判断所述综合相似度是否大于设定阈值;若所述综合相似度大于所述设定阈值,则确定所述候选记录对中所述第一记录与所述第一记录对应的第二记录匹配成功,更新所述候选记录对中的所述第一记录的实体匹配状态字典为匹配,并保存匹配成功的所述候选记录对。2.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述获取第一数据源,之前还包括:构建第一数据源;所述第一数据源包括影视剧的标题属性、别名属性、上映时间属性、导演属性、主演属性和简介属性。3.根据权利要求1所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的各维度相似度,具体包括:依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的主演相似度;依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的简
介相似度。4.根据权利要求3所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的上映时间相似度,具体包括:获取上映时间的年权重、月权重和日权重;所述年权重、所述月权重和所述日权重之和为1;比较所述第一记录中上映时间的年和所述第一记录对应的第二记录中上映时间的年是否相同;若年相同,则确定年相似度为1;若年不相同,则确定年相似度为0;比较所述第一记录中上映时间的月和所述第一记录对应的第二记录中上映时间的月是否相同;若月相同,则确定月相似度为1;若月不相同,则确定月相似度为0;比较所述第一记录中上映时间的日和所述第一记录对应的第二记录中上映时间的日是否相同;若日相同,则确定日相似度为1;若日不相同,则确定日相似度为0;将所述年相似度与所述年权重的乘积、所述月相似度与所述月权重的乘积以及所述日相似度与所述日权重的乘积进行求和操作,得到上映时间相似度。5.根据权利要求3所述的影视类属性数据源间的周期性实体匹配方法,其特征在于,所述依次计算每个所述候选记录对中所述第一记录和所述第一记录对应的第二记录的导演相似度,具体包括:比较所述第一记录中导演和所述第一记录对应的第二记录中导演是否相同;若导演相同,则确定导演相似度为1;若导演不相同,则确定导演相似度为0。6....
【专利技术属性】
技术研发人员:赵春光,李凯东,林桢杰,陈珊珊,李孟禹,赵亦喆,
申请(专利权)人:央视频融媒体发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。