结构化实体收录方法、装置、服务器和存储介质制造方法及图纸

技术编号:17970603 阅读:26 留言:0更新日期:2018-05-16 11:26
本发明专利技术实施例公开了一种结构化实体收录方法、装置、服务器和存储介质,其中,结构化实体收录方法包括:从知识图谱中选取与待收录的结构化实体相关的候选实体,根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。本发明专利技术实施例解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。

【技术实现步骤摘要】
结构化实体收录方法、装置、服务器和存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种结构化实体收录方法、装置、服务器和存储介质。
技术介绍
知识图谱在无论是学术界还是工业界都有着举足轻重的地位,它是人工智能的基础,也是实现智能问答等应用的必经之路,能够快捷方便地为用户提供信息。知识图谱本质上就是由实体节点与节点间的边构成的一个网络。知识图谱的重复率和准确率将会影响其服务质量。当出现更新需求时,知识图谱需要对新实体进行收录。目前,通常是每增加一个实体,都需要针对知识图谱中的各实体进行一次实体解析,该过程计算量大、耗时长,无法适用于百亿量级的实体收录;并且,现有实体解析方法利用余弦相似度计算实体的匹配分值,或者,将实体上下文表示成BOW(Bag-of-Words)向量形式并计算向量间的余弦值以确定实体相似度,这些方法准确度不高。
技术实现思路
本专利技术实施例提供一种结构化实体收录方法、装置、服务器和存储介质,以解决现有知识图谱对实体进行收录时计算量大、耗时长及准确度不高的问题。第一方面,本专利技术实施例提供了一种结构化实体收录方法,该方法包括:从所述知识图谱中选取与待收录的结构化实体相关的候选实体;根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。第二方面,本专利技术实施例还提供了一种结构化实体收录装置,该装置包括:候选实体选取模块,用于从所述知识图谱中选取与待收录的结构化实体相关的候选实体;关联实体确定模块,用于根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;关联实体收录模块,用于对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的结构化实体收录方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的结构化实体收录方法。本专利技术实施例通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。附图说明图1是本专利技术实施例一中的结构化实体收录方法的流程图;图2是本专利技术实施例二中的结构化实体收录方法的流程图;图3是本专利技术实施例三中的结构化实体收录方法的流程图;图4是本专利技术实施例四中的结构化实体收录方法的流程图;图5是本专利技术实施例五中的结构化实体归一方法的流程图;图6是本专利技术实施例六中的结构化实体收录装置的结构示意图;图7是本专利技术实施例七中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的结构化实体收录方法的流程图,本实施例可适用于对知识图谱进行扩充的情况,该方法可以由结构化实体收录装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以集成在服务器中。如图1所示,该方法具体包括:S110、从知识图谱中选取与待收录的结构化实体相关的候选实体。现有的知识图谱对结构化实体进行收录,对于每一个待收录的结构化实体而言,都需要针对知识图谱内所有的实体进行实体解析。由于涉及到对所有实体进行实体解析,该过程计算量大,耗时长,基于此,本实施例中的知识图谱在对结构化实体进行收录时,不再对其包含的所有实体进行实体解析,而是从知识图谱中选取相关的候选实体,这样可以减少实体比较的个数,进而减少时间复杂度。本实施例中,待收录的结构化实体是现有的知识图谱中未收录的实体,其可以通过网络爬取等方式获得。在从知识图谱中选取候选实体时,可以利用待收录的结构化实体的特性作为选取标准,在获取到候选实体后,可以利用候选实体将待收录的结构化实体与知识图谱进行关联,其中,作为选取标准的特性优选可以是实体名称。每个待收录的结构化实体所对应的候选实体可能是一个或多个。当然,知识图谱中也可能不存在与待收录的结构化实体相关的候选实体,则该待收录的结构化实体无法与知识图谱进行关联,可以考虑直接将该待收录的结构化实体增加到知识图谱中,后面实施例将对此进行说明。S120、根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体。本实施例中,先验属性信息是指用户根据实体类别(如电影、人物等)及该类别下属性的先验知识预先配置的一些信息,例如可以是属性的比较方式、属性对于确定实体对是否相同的重要程度、用户根据属性来标注实体对是否相同等。根据候选实体所属类别的先验属性信息结合预设模型,可以确定待收录的结构化实体与其候选实体的相似程度,进而可以确定待收录的结构化实体能否与知识图谱进行关联,其中,存在相似程度较高的候选实体,表示该待收录的结构化实体能够与知识图谱进行关联,该待收录的结构化实体即为关联实体。利用先验知识融合预设模型能够有效提高实体关联的效率和准确度。S130、对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。本实施例中,在确定待收录的结构化实体为关联实体后,利用关联实体与能够与其相关联的候选实体之间的关联关系,将关联实体和候选实体进行合并,即可将关联实体收录到知识图谱中。本实施例提供的结构化实体收录方法,通过从知识图谱中选取与待收录的结构化实体相关的候选实体,并根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,在确定了结构化实体为关联实体后,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中,解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。在上述实施例的基础上,进一步的,从知识图谱中选取与待收录的结构化实体相关的候选实体,可以包括:基于预先建立的索引,利用模糊查询和/或精准查询从知识图谱中选取与待收录的结构化实体的名称相关的各候选实体;其中,索引是根据知识图谱中所有结构化实体的标识、名称及别名建立的,模糊查询用于根据索引选取与待收录的结构化实体的名称相近的第一预设数目的候选实体,精准查询用于根据索引选取与待收录的结构化实体的名称相同的第二预设数目的候选实体。本本文档来自技高网...
结构化实体收录方法、装置、服务器和存储介质

【技术保护点】
一种结构化实体收录方法,其特征在于,包括:从所述知识图谱中选取与待收录的结构化实体相关的候选实体;根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。

【技术特征摘要】
1.一种结构化实体收录方法,其特征在于,包括:从所述知识图谱中选取与待收录的结构化实体相关的候选实体;根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述从所述知识图谱中选取与所述待收录的结构化实体相关的候选实体,包括:基于预先建立的索引,利用模糊查询和/或精准查询从所述知识图谱中选取与所述待收录的结构化实体的名称相关的各候选实体;其中,所述索引是根据所述知识图谱中所有结构化实体的标识、名称及别名建立的,所述模糊查询用于根据所述索引选取与所述待收录的结构化实体的名称相近的第一预设数目的候选实体,所述精准查询用于根据所述索引选取与所述待收录的结构化实体的名称相同的第二预设数目的候选实体。3.根据权利要求1所述的方法,其特征在于,所述根据所述候选实体所属类别的先验属性信息及及预设模型确定所述待收录的结构化实体为关联实体,包括:根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率;若存在一个或多个实体相似度概率大于预设阈值,则确定所述待收录的结构化实体为关联实体;若所有实体相似度概率均小于所述预设阈值,则确定所述待收录的结构化实体为无关联实体。4.根据权利要求3所述的方法,其特征在于,所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率,包括:针对每个候选实体,利用预设的属性比较方法和属性重要度,计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率;利用预设的贝叶斯模型,对所述各属性相似度概率进行迭代计算,得到所述待收录的结构化实体与所述候选实体之间的实体相似度概率。5.根据权利要求4所述的方法,其特征在于,所述利用预设的属性比较方法和属性重要度,计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率,包括:根据所述属性重要度中的比较信息,确定所述待收录的结构化实体与所述候选实体中的待比较属性对;针对每个待比较属性对,根据所述待比较属性对的特征,从所述预设的属性比较方法中选取相对应的比较方法进行属性对比较,得到所述待比较属性对的比较结果;利用所述属性重要度中的实体置信度惩罚信息和实体置信度奖赏信息,对所述待比较属性对的比较结果进行概率回归,得到属性相似度概率。6.根据权利要求5所述的方法,其特征在于,在得到所述待比较属性对的比较结果之后,还包括:若所述待比较属性对对应的属性重要度中实体置信度惩罚信息配置为第一值,则确定所述待收录的结构化实体与所述候选实体不同;若所述待比较属性对对应的属性重要度中实体置信度惩罚信息未配置为第一值,则利用所述实体置信度惩罚信息和所述实体置信度奖赏信息,对所述待比较属性对的比较结果进行概率回归,得到属性相似度概率。7.根据权利要求3所述的方法,其特征在于,所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率,包括:针对每个候选实体,利用预设的属性比较方法,计算所述待收录...

【专利技术属性】
技术研发人员:徐也冯知凡陆超张扬方舟王述朱勇李莹
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1