一种多数据源影视数据实体对齐的方法技术

技术编号:17388556 阅读:34 留言:0更新日期:2018-03-04 13:45
本发明专利技术涉及影视知识图谱领域,公开了一种多数据源影视数据实体对齐的方法,来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息。本发明专利技术通过采集来自多个数据源的影视数据并进行数据预处理、属性对齐;然后基于预定义的影视实体匹配规则迅速对齐一部分实体;再基于实体相似度匹配剩下的影视实体;最后根据匹配结果进行影视实体对齐。本发明专利技术适用于影视知识图谱中多数据源影视数据实体对齐。

A method of alignment of multi data source video data entity

The invention relates to the field of video knowledge map, and discloses a method for aligning multi data sources, video data entities, aligning the entities of multiple data sources, and processing complementary and redundant information between different data sources. The present invention by collecting data from multiple sources of data and video data preprocessing, attribute alignment; then the predefined video entities based on matching rules quickly align part entity; then, the rest of the video entity entity similarity based on the entity alignment film; according to the matching result. The invention is suitable for the alignment of multi data source, film and television data entity in the video knowledge map.

【技术实现步骤摘要】
一种多数据源影视数据实体对齐的方法
本专利技术涉及影视知识图谱领域,特别涉及一种多数据源影视数据实体对齐的方法。
技术介绍
传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻找有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。知识图谱覆盖了各个领域的知识,其中也包括影视这一人们娱乐生活中不可或缺的领域。影视知识图谱的构建需要将来自多个影视数据源的数据进行实体对齐,如豆瓣网、时光网、电影百度百科、中国电影票房网等数据源,从而实现一个统一接口、统一语义的影视知识图谱。由于来自不同数据源的数据的格式、内容、信息量都可能不同,必须要使用一种有效的方法来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息,充分综合有用的信息,从而生成对影视对象的一致性解释和描述。现有的影视知识图谱领域的实体对齐主要是采用通用的一些实体对齐方法,并未考虑影视领域数据特有的特点,而导致实体对齐结果的查准率和查全率不高。
技术实现思路
本专利技术要解决的技术问题是:提供一种多数据源影视数据实体对齐的方法,来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息。为解决上述问题,本专利技术采用的技术方案是:一种多数据源影视数据实体对齐的方法,包括以下步骤:步骤1:收集来自不同数据源的影视数据并分类;步骤2:从影视数据中提取实体、实体主要特征、实体间关系;步骤3:对提取的数据进行预处理;步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;步骤5:根据实体匹配结果对齐实体。进一步的,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。进一步的,步骤3中,对提取的数据进行预处理包括:①简繁体转换、特殊字符处理以及html转义字符处理;②根据属性特征分别进行处理,并将各属性对齐。进一步的,步骤4具体包括:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。进一步的,所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元素进行筛选,以找到与待匹配实体相匹配的实体。进一步的,所述实体相似度匹配包括:步骤41:基于概率模型计算得到影视实体各个属性的权重;步骤42:确定影视实体的属性的类型,并利用各类型所对应的计算公式计算实体各属性的相似度;影视实体的属性的类型包括数值型、字符串型、日期型和集合型;步骤43:将属性权重和相似度加权平均得到实体的相似度,与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配。进一步的,步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,需要同时考虑各个实体的本名和别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空,则认为待匹配影视实体的相应属性的属性值相同,如果演员名属性的名字集合p1、p2的交集中元素的个数Num满足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),则认为待匹配实体的演员属性相等。进一步的,步骤5中,根据匹配结果进行实体对齐时遵循如下规则:如果目标数据源中已存在待对齐实体,则对其属性进行更新,若属性值有歧义,则保留较热门数据源的值;如果目标数据源中不存在待对齐实体,则将该实体添加到目标数据源中。本专利技术的有益效果是:本专利技术充分考虑了影视领域数据特有的特点,首先基于预定义的影视实体匹配规则迅速对齐一部分实体,再基于实体相似度匹配剩下的影视实体,能够在保证实体对齐速率的前提下,以更高的查准率和查全率对齐来自不同数据源的数据,为影视知识图片的构建提供了一个具有统一语义的数据支撑。附图说明图1为实施例的流程图。具体实施方式下面将结合附图更详细地描述本专利技术的示例性实施例。如图1所示,一种多源影视数据实体对齐的具体工作流程如下:步骤1:数据收集与实体、实体间关系提取。从多个不同的影视数据源站点中抓取影视相关的数据(本实施例中以两个数据源为例),从抓取的数据中提取构建影视知识图谱将会用到的实体、属性与实体间关系,实体包括影视、人物、角色,影视实体的属性包括:片名、别名、出品年、上映日期、制片国家/地区、演员、导演、编剧、影片类型等影片基本信息;人物实体的属性包括:人名、别名、出生日期、国籍、身高、体重、家人等基本个人信息;角色实体的属性包括:角色名、别名。实体间关系包括人物与影片间的关系(参演、配音、导演、编剧、制片等)、人物与人物间的关系(父亲、姐姐、妻子、朋友、同学等)、人物与角色间的关系(扮演)、影片与角色间的关系(角色)。步骤2:数据预处理与属性对齐先对数据进行统一处理:繁体转换为简体、特殊字符处理、html字符转义;再对不同的属性根据其特征分别进行处理将各属性对齐,如影视数据中的人物实体的生日属性包括以下形式:{“生日”:”1991-1-12出生”}、{“出生日期”:”于1991年1月12号出生”}、{”birthday”:”1991/1/12”}等,利用正则表达式”\d{4}[年\-—/\.]\d{1,2}[月\-—/\.]\d{1,2}[日号]?”提取出生日信息,再转换为统一形式,即统一处理为{“birthday”:”1991-01-12”}格式的生日。步骤3:影视实体匹配,分为以下两部分:步骤31:基于预定义规则进行匹配对于影片数据,定义以下十条匹配规则:①片名(影片名或别名)相同且上映日期相同;②导演相同且上映日期相同;③编剧相同且上映日期相同;④片名相同、导演相同且出品年相同;⑤片名相同、编剧相同且出品年相同;⑥片名、出品年及制片地区/国家相同;⑦片名及导演相同;⑧片名及编剧相同;⑨演、出品年及演员相同;⑩编剧、出品年及演员相同。其中片名、导演名、编剧名、演员名均为集合且包括本名及别名,只要两个名字集合的交集中元素个数大于给定的阈值则认为两个名字相同。如果两个影片实体满足上述规则中①~⑤中的任意一条,则认为两个实体是匹配的;如果满足规则⑥~⑩中某一条,则继续根据⑥~⑩中其他条规则来逐次筛选待匹配实体直到找到唯一的匹配实体或搜索结束。对于人物数据,定义以下两条规则:①姓名相同且出生日期相同;②相同且参演影片相同。其中,姓名和参演影片名皆为集合且包括本名和别名,只要两个名称集合的交集的大小大于给定的阈值则认为两个名字相同。步骤4:规则匹配结束后,对未匹配的实体部分再进行实体相似度进行匹配。实体相似度进行匹配的流程如下:步骤41:实体属性权重计算根据本文档来自技高网...
一种多数据源影视数据实体对齐的方法

【技术保护点】
一种多数据源影视数据实体对齐的方法,其特征在于,包括以下步骤:步骤1:收集来自不同数据源的影视数据并分类;步骤2:从影视数据中提取实体、实体主要特征、实体间关系;步骤3:对提取的数据进行预处理;步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;步骤5:根据实体匹配结果对齐实体。

【技术特征摘要】
1.一种多数据源影视数据实体对齐的方法,其特征在于,包括以下步骤:步骤1:收集来自不同数据源的影视数据并分类;步骤2:从影视数据中提取实体、实体主要特征、实体间关系;步骤3:对提取的数据进行预处理;步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;步骤5:根据实体匹配结果对齐实体。2.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。3.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤3中,对提取的数据进行预处理包括:①简繁体转换、特殊字符处理以及html转义字符处理;②根据属性特征分别进行处理,并将各属性对齐。4.如权利要求1或2所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤4具体包括:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。5.如权利要求4所述的一种多数据源影视数据实体对齐的方法,其特征在于,所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元...

【专利技术属性】
技术研发人员:唐娟唐军李晓燕
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1