知识库构建方法、实体链接方法、装置及设备制造方法及图纸

技术编号:37863818 阅读:12 留言:0更新日期:2023-06-15 20:53
本公开提供了一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品,涉及数据处理技术领域,尤其涉及大数据、智能搜索技术领域。具体实现方案为:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。机构知识库。机构知识库。

【技术实现步骤摘要】
知识库构建方法、实体链接方法、装置及设备


[0001]本公开涉及数据处理
,尤其涉及大数据、智能搜索
,具体涉及一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。

技术介绍

[0002]知识库是用于知识管理的一种数据库,知识库可以用于相关领域的知识的收集、整理和抽取。如何准确、高效地进行知识抽取是一个亟需解决的技术问题。

技术实现思路

[0003]本公开提供了一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种知识库构建方法,包括:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
[0005]根据本公开的另一方面,提供了一种实体链接方法,包括:确定输入文本中的引用文本;根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体;根据候选实体与引用文本之间的相关性,确定与引用文本链接的目标实体,其中,组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
[0006]根据本公开的另一方面,提供了一种知识库构建装置,包括:组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;知识库构建模块,用于根据组织机构实体,构建组织机构知识库。
[0007]根据本公开的另一方面,提供了一种实体链接装置,包括:引用文本确定模块,用于确定输入文本中的引用文本;候选实体确定模块,用于根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体;目标实体确定模块,用于根据候选实体,确定与引用文本链接的目标实体,其中,组织机构知识库是利用以下模块构建得到的:知识库构建模块,用于组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;根据组织机构实体,构建组织机构知识库。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现本公开实施例的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1A示意性示出了在搜索引擎根据输入的查询内容进行搜索的具体示例;
[0014]图1B示意性示出了一种实施方式的利用排序模型对候选实体排序以确定目标实体的示意图;
[0015]图1C示意性示出了一种实施方式的利用二分类模型对候选实体排序以确定目标实体的示意图;
[0016]图1D示意性示出了一种实施方式的利用多分类模型对候选实体排序以确定目标实体的示意图;
[0017]图2示意性示出了根据本公开实施例的知识库构建方法、实体链接方法和装置的系统架构图;
[0018]图3示意性示出了根据本公开实施例的知识库构建方法的流程图;
[0019]图4示意性示出了根据本公开实施例的实体链接方法的示意图;
[0020]图5示意性示出了根据本公开另一实施例的实体链接方法的示意图;
[0021]图6示意性示出了根据本公开实施例的知识库构建装置的框图;
[0022]图7示意性示出了根据本公开实施例的实体链接装置的框图;以及
[0023]图8示意性示出了可以实现本公开实施例的知识库构建方法、实体链接方法的电子设备的框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0026]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0027]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或
具有A、B、C的系统等)。
[0028]知识库是用于知识管理的一种数据库,知识库可以用于相关领域的知识的收集、整理和抽取。
[0029]实体链接(Entity Linking,简称为EL)是一种知识抽取的方式,实体链接可以理解为将自由文本中已识别的实体对象(例如:人名、地名、机构名等),无歧义地指向知识库中目标实体的过程,即根据自由文本中的实体对象匹配到知识库中最符合该实体的目标实体,如果可以准确查询到对应的目标实体,则可以推送该目标实体的具体内容。实体链接在知识工程和数据挖掘领域发挥着重要作用,是例如知识融合、内容分析、知识索引等各种下游应用的基础。
[0030]图1A示意性示出了在搜索引擎根据输入的查询内容(查询内容即query)进行搜索的具体示例。如图1A所示。可以根据输入的查询内容匹配知识库102中的实体,例如可以将匹配到的实体Entity

1、实体Entity

2、实体Entity

3以及实体Entity

4的具体内容101进行推送。实体Entity

1对应的具体内容例如为Text

1,实体Entity
...

【技术保护点】

【技术特征摘要】
1.一种知识库构建方法,包括:根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及根据所述组织机构实体,构建组织机构知识库。2.根据权利要求1所述的方法,其中,所述根据所述组织机构实体,构建组织机构知识库包括:对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;对所述类别信息进行聚类,确定至少一个组织机构类别簇;根据所述组织机构类别簇,确定所述组织机构类别的知识词典;以及根据所述知识词典和所述组织机构实体,构建所述组织机构知识库。3.根据权利要求2所述的方法,其中,所述知识词典包括同类别词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:根据关联同一个所述组织机构类别簇的所述类别信息,确定同类别信息;以及根据所述同类别信息,确定所述同类别词典。4.根据权利要求2所述的方法,其中,所述知识词典还包括简称词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个所述组织机构的简称集合;以及根据每一个所述组织机构的简称集合,确定所述组织机构类别的简称词典。5.根据权利要求4所述的方法,其中,所述针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个组织机构的简称集合包括:针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合,其中,所述简称组合规则表征由所述组织机构名称的组成部分生成组织机构名称简称的规则,所述组织机构名称的组成部分是由所述组织机构名称解析得到的。6.根据权利要求2所述的方法,其中,所述知识词典还包括用于表征人物信息与所述组织机构实体之间的映射关系的人物映射词典。7.根据权利要求1

6中任一项所述的方法,其中,所述自定义属性包括描述属性、读音属性中的至少一个;所述描述属性用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个;所述读音属性用于表征所述组织机构名称的读音。8.一种实体链接方法,包括:确定输入文本中的引用文本;根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体;根据所述候选实体,确定与所述引用文本链接的目标实体,其中,所述组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
根据所述组织机构实体,构建组织机构知识库。9.根据权利要求8所述的方法,其中,所述候选实体包括第一候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本对应的输入文本以及所述引用文本的解析结果,确定所述引用文本对应的地址信息;以及将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性用于表征所述组织机构实体相关的地址信息。10.根据权利要求9所述的方法,其中,所述将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体包括:将所述引用文本对应的地址信息与所述组织机构知识库中的所述组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个所述层级地址的匹配结果;以及根据每一个所述层级地址的匹配结果,确定所述第一候选实体,其中,所述地址层级结构包括行政区划地址,所述行政区划地址包括多个所述层级地址。11.根据权利要求8所述的方法,其中,所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:对所述引用文本进行实体类别识别,得到所述引用文本相关的实体类别;以及根据所述引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与所述引用文本相关的候选实体。12.根据权利要求8

11中任一项所述的方法,其中,所述候选实体包括第二候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称简称;根据所述引用文本对应的组织机构名称简称与简称词典,确定候选简称;以及将所述候选简称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第二候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称简称。13.根据权利要求8

11中任一项所述的方法,其中,所述候选实体包括第三候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称全称;以及根据所述引用文本对应的组织机构名称全称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第三候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称全称。14.根据权利要求8

11中任一项所述的方法,其中,所述候选实体包括第四候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个;以及根据所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与所述组织机构知识库中的组织机构实体进行匹配,确定所述第四候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关
的职能信息、品牌信息、产品信息、领域信息中的至少一个。15.根据权利要求8

11中任一项所述的方法,其中,所述候选实体包括第五候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的读音信息;以及根据所述引用文本对应的读音信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第五候选实体,其中,所述组织机构实体的所述自定义属性包括读音属性,所述读音属性用于表征所述组织机构名称的读音。16.根据权利要求8

11中任一项所述的方法,其中,所述候选实体包括第六候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的人物信息;根据所述引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及将所述候选人物信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第六候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的人物信息。17.根据权利要求8

11中任一项所述的方法,其中,所述根据所述候选实体与所述引用文本之间的相关性,确定与所述引用文本链接的目标实体包括:根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值;以及根据所述候选实体的所述相关性评估值,从所述候选实体中确定所述目标实体,其中,所述候选实体包括所述第一候选实体、所述第二候选实体、所述第三候选实体、所述第四候选实体、所述第五候选实体以及所述第六候选实体中的至少一个。18.根据权利要求17所述的方法,其中,所述根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值包括:对所述候选实体进行解析,得到所述候选实体的构词成分;以及针对任意一个所述候选实体,根据所述构词成分的基准评估值和权重,确定所述候选实体的相关性评估值。19.一种知识库构建装置,包括:组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及知识库构建模块,用于根据所述组织机构实体,构建组织机构知识库。20.根据权利要求19所述的装置,其中,所述知识库构建模块包括:类别信息确定子模块,用于对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;类别簇确定子模块,用于对所述类别信息进行聚类,确定至少一个组织...

【专利技术属性】
技术研发人员:徐思琪夏志群龚建孙珂卓泽城
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1