【技术实现步骤摘要】
知识库构建方法、实体链接方法、装置及设备
[0001]本公开涉及数据处理
,尤其涉及大数据、智能搜索
,具体涉及一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。
技术介绍
[0002]知识库是用于知识管理的一种数据库,知识库可以用于相关领域的知识的收集、整理和抽取。如何准确、高效地进行知识抽取是一个亟需解决的技术问题。
技术实现思路
[0003]本公开提供了一种知识库构建方法、实体链接方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种知识库构建方法,包括:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
[0005]根据本公开的另一方面,提供了一种实体链接方法,包括:确定输入文本中的引用文本;根据引用文本,从组织机构知识库中确定与引用文本相关的候选实体;根据候选实体与引用文本之间的相关性,确定与引用文本链接的目标实体,其中,组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机构特征;以及根据组织机构实体,构建组织机构知识库。
[0006]根据本公开的另一方面,提供了一种知识库构建装置,包括:组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,组织机构实体具有自定义属性,自定义属性表征组织机构实体的组织机
【技术保护点】
【技术特征摘要】
1.一种知识库构建方法,包括:根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及根据所述组织机构实体,构建组织机构知识库。2.根据权利要求1所述的方法,其中,所述根据所述组织机构实体,构建组织机构知识库包括:对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;对所述类别信息进行聚类,确定至少一个组织机构类别簇;根据所述组织机构类别簇,确定所述组织机构类别的知识词典;以及根据所述知识词典和所述组织机构实体,构建所述组织机构知识库。3.根据权利要求2所述的方法,其中,所述知识词典包括同类别词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:根据关联同一个所述组织机构类别簇的所述类别信息,确定同类别信息;以及根据所述同类别信息,确定所述同类别词典。4.根据权利要求2所述的方法,其中,所述知识词典还包括简称词典;所述根据所述组织机构类别簇,确定所述组织机构类别的知识词典包括:针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个所述组织机构的简称集合;以及根据每一个所述组织机构的简称集合,确定所述组织机构类别的简称词典。5.根据权利要求4所述的方法,其中,所述针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果,确定每一个组织机构的简称集合包括:针对任意一个所述组织机构类别簇,根据所述组织机构名称的解析结果和简称组合规则,确定每一个组织机构的简称集合,其中,所述简称组合规则表征由所述组织机构名称的组成部分生成组织机构名称简称的规则,所述组织机构名称的组成部分是由所述组织机构名称解析得到的。6.根据权利要求2所述的方法,其中,所述知识词典还包括用于表征人物信息与所述组织机构实体之间的映射关系的人物映射词典。7.根据权利要求1
‑
6中任一项所述的方法,其中,所述自定义属性包括描述属性、读音属性中的至少一个;所述描述属性用于表征所述组织机构实体相关的职能信息、品牌信息、产品信息、领域信息、地址信息、组织机构名称简称、组织机构名称全称、人物信息中的至少一个;所述读音属性用于表征所述组织机构名称的读音。8.一种实体链接方法,包括:确定输入文本中的引用文本;根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体;根据所述候选实体,确定与所述引用文本链接的目标实体,其中,所述组织机构知识库是利用以下操作构建得到的:根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及
根据所述组织机构实体,构建组织机构知识库。9.根据权利要求8所述的方法,其中,所述候选实体包括第一候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本对应的输入文本以及所述引用文本的解析结果,确定所述引用文本对应的地址信息;以及将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性用于表征所述组织机构实体相关的地址信息。10.根据权利要求9所述的方法,其中,所述将所述引用文本对应的地址信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第一候选实体包括:将所述引用文本对应的地址信息与所述组织机构知识库中的所述组织机构实体,基于地址层级结构的每一个层级地址进行匹配,得到每一个所述层级地址的匹配结果;以及根据每一个所述层级地址的匹配结果,确定所述第一候选实体,其中,所述地址层级结构包括行政区划地址,所述行政区划地址包括多个所述层级地址。11.根据权利要求8所述的方法,其中,所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:对所述引用文本进行实体类别识别,得到所述引用文本相关的实体类别;以及根据所述引用文本的实体类别与组织机构实体的实体类别两者之间的相关性,确定与所述引用文本相关的候选实体。12.根据权利要求8
‑
11中任一项所述的方法,其中,所述候选实体包括第二候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称简称;根据所述引用文本对应的组织机构名称简称与简称词典,确定候选简称;以及将所述候选简称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第二候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称简称。13.根据权利要求8
‑
11中任一项所述的方法,其中,所述候选实体包括第三候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的组织机构名称全称;以及根据所述引用文本对应的组织机构名称全称与所述组织机构知识库中的组织机构实体进行匹配,确定所述第三候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的组织机构名称全称。14.根据权利要求8
‑
11中任一项所述的方法,其中,所述候选实体包括第四候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个;以及根据所述引用文本对应的职能信息、品牌信息、产品信息、领域信息中的至少一个与所述组织机构知识库中的组织机构实体进行匹配,确定所述第四候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关
的职能信息、品牌信息、产品信息、领域信息中的至少一个。15.根据权利要求8
‑
11中任一项所述的方法,其中,所述候选实体包括第五候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的读音信息;以及根据所述引用文本对应的读音信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第五候选实体,其中,所述组织机构实体的所述自定义属性包括读音属性,所述读音属性用于表征所述组织机构名称的读音。16.根据权利要求8
‑
11中任一项所述的方法,其中,所述候选实体包括第六候选实体;所述根据所述引用文本,从组织机构知识库中确定与所述引用文本相关的候选实体包括:根据所述引用文本的解析结果,确定所述引用文本对应的人物信息;根据所述引用文本对应的人物信息与人物映射词典,确定候选人物信息;以及将所述候选人物信息与所述组织机构知识库中的组织机构实体进行匹配,确定所述第六候选实体,其中,所述组织机构实体的所述自定义属性包括描述属性,所述描述属性还用于表征所述组织机构实体相关的人物信息。17.根据权利要求8
‑
11中任一项所述的方法,其中,所述根据所述候选实体与所述引用文本之间的相关性,确定与所述引用文本链接的目标实体包括:根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值;以及根据所述候选实体的所述相关性评估值,从所述候选实体中确定所述目标实体,其中,所述候选实体包括所述第一候选实体、所述第二候选实体、所述第三候选实体、所述第四候选实体、所述第五候选实体以及所述第六候选实体中的至少一个。18.根据权利要求17所述的方法,其中,所述根据所述候选实体的基准评估值和权重,确定所述候选实体的相关性评估值包括:对所述候选实体进行解析,得到所述候选实体的构词成分;以及针对任意一个所述候选实体,根据所述构词成分的基准评估值和权重,确定所述候选实体的相关性评估值。19.一种知识库构建装置,包括:组织机构实体确定模块,用于根据组织机构数据,确定组织机构实体,其中,所述组织机构实体具有自定义属性,所述自定义属性表征所述组织机构实体的组织机构特征;以及知识库构建模块,用于根据所述组织机构实体,构建组织机构知识库。20.根据权利要求19所述的装置,其中,所述知识库构建模块包括:类别信息确定子模块,用于对所述组织机构实体进行结构化,确定用于表征组织机构类别的类别信息,其中,所述组织机构实体包括组织机构名称,所述组织机构名称包括所述类别信息;类别簇确定子模块,用于对所述类别信息进行聚类,确定至少一个组织...
【专利技术属性】
技术研发人员:徐思琪,夏志群,龚建,孙珂,卓泽城,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。