一种多数据源影视数据实体对齐的方法技术

技术编号：17388556 阅读：34 留言：0更新日期：2018-03-04 13:45

本发明专利技术涉及影视知识图谱领域，公开了一种多数据源影视数据实体对齐的方法，来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息。本发明专利技术通过采集来自多个数据源的影视数据并进行数据预处理、属性对齐；然后基于预定义的影视实体匹配规则迅速对齐一部分实体；再基于实体相似度匹配剩下的影视实体；最后根据匹配结果进行影视实体对齐。本发明专利技术适用于影视知识图谱中多数据源影视数据实体对齐。

A method of alignment of multi data source video data entity

The invention relates to the field of video knowledge map, and discloses a method for aligning multi data sources, video data entities, aligning the entities of multiple data sources, and processing complementary and redundant information between different data sources. The present invention by collecting data from multiple sources of data and video data preprocessing, attribute alignment; then the predefined video entities based on matching rules quickly align part entity; then, the rest of the video entity entity similarity based on the entity alignment film; according to the matching result. The invention is suitable for the alignment of multi data source, film and television data entity in the video knowledge map.

全部详细技术资料下载

【技术实现步骤摘要】
一种多数据源影视数据实体对齐的方法
本专利技术涉及影视知识图谱领域，特别涉及一种多数据源影视数据实体对齐的方法。
技术介绍
传统的搜索引擎主要是基于关键字搜索相关网页，再由用户人工从一堆候选网页中寻找有用的信息，随着互联网技术的飞速发展，这种传统的搜索引擎已经日渐无法满足人们的需求，人们对搜索有了更高的期望。在此背景下，知识图谱也就应运而生了，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，描述了真实世界中存在的各种实体和概念，及实体、概念之间的关联关系，从而改善了搜索结果。知识图谱覆盖了各个领域的知识，其中也包括影视这一人们娱乐生活中不可或缺的领域。影视知识图谱的构建需要将来自多个影视数据源的数据进行实体对齐，如豆瓣网、时光网、电影百度百科、中国电影票房网等数据源，从而实现一个统一接口、统一语义的影视知识图谱。由于来自不同数据源的数据的格式、内容、信息量都可能不同，必须要使用一种有效的方法来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息，充分综合有用的信息，从而生成对影视对象的一致性解释和描述。现有的影视知识图谱领域的实体对齐主要是采用通用的一些实体对齐方法，并未考虑影视领域数据特有的特点，而导致实体对齐结果的查准率和查全率不高。
技术实现思路
本专利技术要解决的技术问题是：提供一种多数据源影视数据实体对齐的方法，来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息。为解决上述问题，本专利技术采用的技术方案是：一种多数据源影视数据实体对齐的方法，包括以下步骤：步骤1：收集来自不同数据源的影视数据并分类；步骤2：从影视数...

【技术保护点】
一种多数据源影视数据实体对齐的方法，其特征在于，包括以下步骤：步骤1：收集来自不同数据源的影视数据并分类；步骤2：从影视数据中提取实体、实体主要特征、实体间关系；步骤3：对提取的数据进行预处理；步骤4：基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配；步骤5：根据实体匹配结果对齐实体。

【技术特征摘要】
1.一种多数据源影视数据实体对齐的方法，其特征在于，包括以下步骤：步骤1：收集来自不同数据源的影视数据并分类；步骤2：从影视数据中提取实体、实体主要特征、实体间关系；步骤3：对提取的数据进行预处理；步骤4：基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配；步骤5：根据实体匹配结果对齐实体。2.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤2中，从影视数据中提取的实体包括影视实体、人物实体；影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型；人物实体的特征至少包括人名、别名、出生日期、职业；实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。3.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤3中，对提取的数据进行预处理包括：①简繁体转换、特殊字符处理以及html转义字符处理；②根据属性特征分别进行处理，并将各属性对齐。4.如权利要求1或2所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤4具体包括：利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配，利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。5.如权利要求4所述的一种多数据源影视数据实体对齐的方法，其特征在于，所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配；匹配时，满足任意一条唯一匹配规则则认为对应的实体相匹配，满足任意非唯一匹配规则的实体则加入候选集，利用多条非唯一规则对候选集中元...

【专利技术属性】
技术研发人员：唐娟，唐军，李晓燕，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人