一种知识图谱中实体更新的方法、装置和服务器制造方法及图纸

技术编号:21629286 阅读:54 留言:0更新日期:2019-07-17 11:12
本发明专利技术提供了一种知识图谱中实体更新的方法、装置和服务器,所述方法包括获取热词集合;根据所述热词集合在所述知识图谱中获取候选实体集合;计算所述候选实体集合中的各个候选实体的优先度;根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。本发明专利技术根据热度选择候选实体集合,并综合考虑候选实体在新闻中出现的次数、实体属性数量、实体链接数量、被编辑次数和访问次数,从而从多维度计算实体的预测更新频率值,并结合时间得到能够表征实体需要被更新的必要性的优先度,从而根据优先度更新实体,这种实体更新方法既兼顾了热点更新,又综合考虑了与实体更新有关的各方面内容,从而确保更新及时准确。

A Method, Device and Server for Entity Renewal in Knowledge Map

【技术实现步骤摘要】
一种知识图谱中实体更新的方法、装置和服务器
本专利技术涉及计算机领域,尤其涉及一种知识图谱中实体更新的方法、装置和服务器。
技术介绍
知识图谱是由实体组成的集合,每个实体都有特定的属性,而其中属性值有可能发生变化。传统知识图谱实体更新只能是对所有实体的信息全部进行更新,从而导致了传统知识图谱更新方法周期长。对于属性内容较为固定的实体,不需要频繁更新,而对于属性内容变化频繁的实体则需要经常更新,而传统知识图谱更新方法无法区分实体信息的变化率,造成部分不需要更新的实体被频繁更新的情况。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种知识图谱中实体更新的方法、装置和服务器器。本专利技术具体是以如下技术方案实现的:第一方面,一种知识图谱中实体更新的方法,包括:获取热词集合;根据所述热词集合在所述知识图谱中获取候选实体集合;计算所述候选实体集合中的各个候选实体的优先度;根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。.第二方面,一种知识图谱中实体更新的装置,包括:热词集合获取模块,用于获取热词集合;候选实体集合获取模块,用于根据所述热词集合在所述知识图谱中获取候选实体集合;优先度获取模块,用于计算所述候选实体集合中的各个候选实体的优先度;目标实体处理模块,用于根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。第四方面,一种服务器,所述服务器用于运行上述一种知识图谱中实体更新的装置。第五方面,一种终端,所述终端用于运行上述一种知识图谱中实体更新的装置。本专利技术提供了一种知识图谱中实体更新的方法、装置和服务器,本专利技术中根据热度选择候选实体集合,并综合考虑候选实体在新闻中出现的次数、实体属性数量、实体链接数量、被编辑次数和访问次数,从而从多维度计算实体的预测更新频率值,并再结合时间来得到能够表征实体需要被更新的必要性的优先度,从而根据优先度更新实体,这种实体更新方法既兼顾了热点更新,又综合考虑了与实体更新有关的各方面内容,从而确保更新及时准确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本专利技术实施例提供的一种知识图谱中实体更新的方法的流程图;图2是本专利技术实施例提供的知识图谱中的实体示意图;图3是本专利技术实施例提供的根据优先度在候选实体集合中选择目标实体的方法流程图;图4是本专利技术实施例提供的另一根据优先度在候选实体集合中选择目标实体的方法流程图;图5是本专利技术实施例提供的一种根据热词获取候选实体的方法流程图;图6是本专利技术实施例提供的优先度的获取方法流程图;图7是本专利技术实施例提供的一种知识图谱中实体更新的装置框图;图8是本专利技术实施例提供的候选实体集合获取模块置框图;图9是本专利技术实施例提供的优先度获取模块框图;图10是本专利技术实施例提供的一种服务器结构示意图;图11是本专利技术实施例提供的一种终端结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例公开一种知识图谱中实体更新的方法,所述方法如图1所示,包括:S101.获取热词集合。热词是一段时间内对社会热点事件的重要提示信息,本专利技术实施例中的热词集合中可以包括一个或多个热词。热词集合的获取方法可以有多种,包括但不限于从新闻、论坛或者用户输入的搜索内容中提取热词,本专利技术实施例并不对热词集合的具体获取方法进行限制。在一个可行的实施方式中,还可以判断热词集合中的热词数量是否达到预设的数量阈值,若未达到,则对热词集合中的热词进行扩展,并以扩展结果作为最终得到的热词集合。比如,若热词集合具体为{“世界杯”、“红黄蓝”、“搜狗”},而预设的数量阈值大于3,则需要对热词集合进行扩展,根据用户的搜索内容,与“世界杯”相关的内容可以包括“世界杯赛程”、“世界杯积分”、“世界杯球星”、“世界杯点球大战”,与“红黄蓝”相关的内容可以包括“红黄蓝亲子园”、“红黄蓝虐童事件”、“红黄蓝三原色”,与“搜狗”相关的内容可以包括“搜狗输入法”和“搜狗浏览器”。因此,热词集合可以被扩展为{“世界杯”、“世界杯赛程”、“世界杯积分”、“世界杯球星”、“世界杯点球大战”、“红黄蓝”、“红黄蓝亲子园”、“红黄蓝虐童事件”、“红黄蓝三原色”、“搜狗”、“搜狗输入法”、“搜狗浏览器”}。S102.根据所述热词集合在所述知识图谱中获取候选实体集合。知识图谱本身就是由实体组成的集合,每个实体都有实体名称及其属性。知识图谱中的实体是客观存在的实体,如图2所示,以腾讯为例,在知识图谱中存在一个实体名称为腾讯,还对应存在下述属性:rich_name、实体类型、实体ID、属性列表、属性概览。实体的属性值随时有可能发生变化,例如:对于篮球运动员,其所属球队,以及荣誉等是经常变化的。由于实体信息是不断变化的,因此知识图谱中的实体需要被更新从而保证其信息的实时性和有效性。在知识图谱中,根据一个热词可以得到其对应的一个或多个实体。以百科词条这一知识图谱为例,一个实体对应一个词条。若热词是“北京协和医院”,则可以得到其对应的唯一一个词条(实体),词条名称即为“北京协和医院”;若热词是“协和医院”则可以得到其对应的三个词条(实体),词条名称分别为“北京协和医院”、“福建医科大学附属协和医院”和“华中科技大学同济医学院附属协和医院”。S103.计算所述候选实体集合中的各个候选实体的优先度。候选实体集合与热词集合存在对应关系,但是并不一定候选实体集合中的各个候选实体均有必要被更新,即根据热词筛选得到的候选实体集合中的候选实体仅仅在热词的维度上考量是有必要进行更新,但是并未对候选实体进行更新的必要性进行评估,因此,本步骤旨在从多个角度综合评估候选实体被更新的必要程度,将所述必要程度数值化并以优先度的形式表示。S104.根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。具体地,所述目标实体的个数可以为一个或多个。更新所述目标实体包括重新获取目标实体的相关信息,并以所述相关信息更新所述目标实体的相关属性值。在一个可行的实施方式中,所述根据优先度在所述候选实体集合中选择目标实体的方法如图3所示,包括:S1041本文档来自技高网
...

【技术保护点】
1.一种知识图谱中实体更新的方法,其特征在于,包括:获取热词集合;根据所述热词集合在所述知识图谱中获取候选实体集合;计算所述候选实体集合中的各个候选实体的优先度;根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。

【技术特征摘要】
1.一种知识图谱中实体更新的方法,其特征在于,包括:获取热词集合;根据所述热词集合在所述知识图谱中获取候选实体集合;计算所述候选实体集合中的各个候选实体的优先度;根据优先度在所述候选实体集合中选择目标实体,并更新所述目标实体。2.根据权利要求1所述的方法,其特征在于,所述获取热词集合还包括:判断热词集合中的热词数量是否达到预设的数量阈值,若未达到,则对热词集合中的热词进行扩展,并以扩展结果作为最终得到的热词集合。3.根据权利要求1所述的方法,其特征在于,所述根据优先度在所述候选实体集合中选择目标实体包括:按照优先度由高到低的顺序对所述候选实体集合中的候选实体进行排序,得到候选实体列表;获取目标数量N;选择所述候选实体列表中的前N个候选实体作为目标实体。4.根据权利要求1所述的方法,其特征在于,所述根据优先度在所述候选实体集合中选择目标实体包括:获取优先度阈值;将所述候选实体集合中优先度不小于所述优先度阈值的候选实体作为目标实体。5.根据权利要求1所述的方法,其特征在于,还包括根据热词获取候选实体,所述根据热词获取候选实体包括:在所述知识图谱中查询所述热词对应的实体:若查询结果不为空,则根据所述查询结果得到所述热词对应的查询结果集;获取所述查询结果集中各个查询结果的实体热度:将实体热度大于预设热度阈值的查询结果纳入候选实体集合。6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:王策
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1