结构化实体收录方法、装置、服务器和存储介质制造方法及图纸

技术编号：17970603 阅读：26 留言：0更新日期：2018-05-16 11:26

本发明专利技术实施例公开了一种结构化实体收录方法、装置、服务器和存储介质，其中，结构化实体收录方法包括：从知识图谱中选取与待收录的结构化实体相关的候选实体，根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体，对关联实体和候选实体进行实体合并，将关联实体收录到知识图谱中。本发明专利技术实施例解决了现有知识图谱对实体进行收录时，由于每增加一个实体，都要针对知识图谱中现有的各实体进行一次实体解析，而导致的计算量大、耗时长且实体解析准确度不高的问题，选取候选实体，然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度，减少计算量，使得知识图谱能够简单高效地对结构化实体进行收录。

全部详细技术资料下载

【技术实现步骤摘要】
结构化实体收录方法、装置、服务器和存储介质
本专利技术实施例涉及数据处理
，尤其涉及一种结构化实体收录方法、装置、服务器和存储介质。
技术介绍
知识图谱在无论是学术界还是工业界都有着举足轻重的地位，它是人工智能的基础，也是实现智能问答等应用的必经之路，能够快捷方便地为用户提供信息。知识图谱本质上就是由实体节点与节点间的边构成的一个网络。知识图谱的重复率和准确率将会影响其服务质量。当出现更新需求时，知识图谱需要对新实体进行收录。目前，通常是每增加一个实体，都需要针对知识图谱中的各实体进行一次实体解析，该过程计算量大、耗时长，无法适用于百亿量级的实体收录；并且，现有实体解析方法利用余弦相似度计算实体的匹配分值，或者，将实体上下文表示成BOW(Bag-of-Words)向量形式并计算向量间的余弦值以确定实体相似度，这些方法准确度不高。
技术实现思路
本专利技术实施例提供一种结构化实体收录方法、装置、服务器和存储介质，以解决现有知识图谱对实体进行收录时计算量大、耗时长及准确度不高的问题。第一方面，本专利技术实施例提供了一种结构化实体收录方法，该方法包括：从所述知识图谱中选取与待收录的结构化实体相关的候选实体；根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体；对所述关联实体和所述候选实体进行实体合并，将所述关联实体收录到所述知识图谱中。第二方面，本专利技术实施例还提供了一种结构化实体收录装置，该装置包括：候选实体选取模块，用于从所述知识图谱中选取与待收录的结构化实体相关的候选实体；关联实体确定模块，用于根据所述候选实体所属类别的...
结构化实体收录方法、装置、服务器和存储介质

【技术保护点】
一种结构化实体收录方法，其特征在于，包括：从所述知识图谱中选取与待收录的结构化实体相关的候选实体；根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体；对所述关联实体和所述候选实体进行实体合并，将所述关联实体收录到所述知识图谱中。

【技术特征摘要】
1.一种结构化实体收录方法，其特征在于，包括：从所述知识图谱中选取与待收录的结构化实体相关的候选实体；根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体；对所述关联实体和所述候选实体进行实体合并，将所述关联实体收录到所述知识图谱中。2.根据权利要求1所述的方法，其特征在于，所述从所述知识图谱中选取与所述待收录的结构化实体相关的候选实体，包括：基于预先建立的索引，利用模糊查询和/或精准查询从所述知识图谱中选取与所述待收录的结构化实体的名称相关的各候选实体；其中，所述索引是根据所述知识图谱中所有结构化实体的标识、名称及别名建立的，所述模糊查询用于根据所述索引选取与所述待收录的结构化实体的名称相近的第一预设数目的候选实体，所述精准查询用于根据所述索引选取与所述待收录的结构化实体的名称相同的第二预设数目的候选实体。3.根据权利要求1所述的方法，其特征在于，所述根据所述候选实体所属类别的先验属性信息及及预设模型确定所述待收录的结构化实体为关联实体，包括：根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率；若存在一个或多个实体相似度概率大于预设阈值，则确定所述待收录的结构化实体为关联实体；若所有实体相似度概率均小于所述预设阈值，则确定所述待收录的结构化实体为无关联实体。4.根据权利要求3所述的方法，其特征在于，所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率，包括：针对每个候选实体，利用预设的属性比较方法和属性重要度，计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率；利用预设的贝叶斯模型，对所述各属性相似度概率进行迭代计算，得到所述待收录的结构化实体与所述候选实体之间的实体相似度概率。5.根据权利要求4所述的方法，其特征在于，所述利用预设的属性比较方法和属性重要度，计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率，包括：根据所述属性重要度中的比较信息，确定所述待收录的结构化实体与所述候选实体中的待比较属性对；针对每个待比较属性对，根据所述待比较属性对的特征，从所述预设的属性比较方法中选取相对应的比较方法进行属性对比较，得到所述待比较属性对的比较结果；利用所述属性重要度中的实体置信度惩罚信息和实体置信度奖赏信息，对所述待比较属性对的比较结果进行概率回归，得到属性相似度概率。6.根据权利要求5所述的方法，其特征在于，在得到所述待比较属性对的比较结果之后，还包括：若所述待比较属性对对应的属性重要度中实体置信度惩罚信息配置为第一值，则确定所述待收录的结构化实体与所述候选实体不同；若所述待比较属性对对应的属性重要度中实体置信度惩罚信息未配置为第一值，则利用所述实体置信度惩罚信息和所述实体置信度奖赏信息，对所述待比较属性对的比较结果进行概率回归，得到属性相似度概率。7.根据权利要求3所述的方法，其特征在于，所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率，包括：针对每个候选实体，利用预设的属性比较方法，计算所述待收录...

【专利技术属性】
技术研发人员：徐也，冯知凡，陆超，张扬，方舟，王述，朱勇，李莹，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人