扩展和强化知识图的方法和系统以及计算机介质技术方案

技术编号：17304469 阅读：36 留言：0更新日期：2018-02-18 22:32

公开了用于使用类似维基的网页作为信息源来扩展和强化知识图的系统和方法。Web爬取器解析类似维基的源并从所述源获取主题实体。识别所述源内的主题实体与子主题之间的关系，并且利用所述主题和与子主题的关系来构建图。识别所述知识图中的候选主题，并且识别或生成所述知识图的子图。知识子图包含候选主题和与子主题的关系。计算源图与知识子图之间的相似度。如果两个图充分相似，那么将源主题图与知识图合并。

Methods and systems for expanding and strengthening knowledge maps and computer media

A system and method for extending and strengthening knowledge maps using a webpage similar to wiki as a source of information is disclosed. The Web crawl parse the source similar to the Wiki and obtain the subject entity from the source. Identify the relationship between the subject entity and the subtopic within the source, and build the diagram by using the subject and the relationship with the subtopics. Identify candidate topics in the knowledge diagram, and identify or generate subgraphs of the knowledge graph. The knowledge subgraph contains the candidate topic and the relationship with the subtopic. Calculate the similarity between the source graph and the knowledge subgraph. If the two graphs are fully similar, then combine the source map with the knowledge map.

全部详细技术资料下载

【技术实现步骤摘要】
扩展和强化知识图的方法和系统以及计算机介质
本专利技术的实施方案大体上涉及计算机实现的知识图的增强和强化。
技术介绍
知识图是从各种各样的来源提供搜索结果的知识库的代表。知识图可通过遍历知识图的主题与节点之间的关系来提供关于主题的结构化的详细信息。给定示例性主题，例如“美利坚合众国(UnitedStates)”，关系可以是诸如“也称为”节点“美国(America)”的别名关系。针对“美利坚合众国”的关系的其他实例可包括“总统姓名”、“人均收入”、“政府类型”、“首都”、“最大城市”或“国家语言”。互联网资源可以是用于扩展或强化知识图的信息的良好来源。然而，并不是所有的互联网资源都是用于扩展或强化知识图的可靠来源。当添加到知识图时，避免重复并且避免错误地添加到知识图是重要的。因此，知识图经常由一个人或一组人手动地维护。
技术实现思路
本申请的目的在于提供用于扩展和强化知识图的计算机实现的方法、非暂时性计算机介质以及用于扩展和强化知识图的系统。根据一个方面，提供了一种用于扩展和强化知识图的计算机实现的方法，该方法可包括：接收包括源数据主题实体和多个源数据边的源数据，其中所...
扩展和强化知识图的方法和系统以及计算机介质

【技术保护点】
一种用于扩展和强化知识图的计算机实现的方法，所述方法包括：接收包括源数据主题实体和多个源数据边的源数据，其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对；从所述源数据主题实体和所述多个源数据边生成源数据图；在知识图中识别具有多个知识图边的候选主题实体，其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对；确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度，所述子图具有与所述候选主题实体相关联的多个知识图边；作为确定所述相似度大于阈值的响应，将所述源数据图合并到所述知识图中。

【技术特征摘要】
2016.08.08 US 15/231,5221.一种用于扩展和强化知识图的计算机实现的方法，所述方法包括：接收包括源数据主题实体和多个源数据边的源数据，其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对；从所述源数据主题实体和所述多个源数据边生成源数据图；在知识图中识别具有多个知识图边的候选主题实体，其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对；确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度，所述子图具有与所述候选主题实体相关联的多个知识图边；作为确定所述相似度大于阈值的响应，将所述源数据图合并到所述知识图中。2.如权利要求1所述的方法，还包括：使用所述知识图的候选主题实体和所述多个知识图边来生成所述知识图的子图。3.如权利要求1所述的方法，其中，所述多个源数据边中的每一个中的关系存在于所述知识图中。4.如权利要求1所述的方法，其中，所述多个源数据边中的每一个中的实体存在于所述知识图中。5.如权利要求1所述的方法，其中，确定相似度包括：确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度；以及确定所述多个源数据边与所述子图的多个知识图边之间的相似度。6.如权利要求5所述的方法，其中，确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度还包括：确定所述源数据主题实体的语境与所述知识图的候选主题实体的语境之间的相似度；其中语境包括用于实体的多个词和词频。7.如权利要求5所述的方法，其中，确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度包括：翻译所述源数据主题实体的语言。8.如权利要求5所述的方法，其中，确定所述多个源数据图边与所述子图的多个知识图边之间的相似度包括：确定所述多个源数据图边与所述子图的多个知识图边的交集和所述多个源数据边与所述子图的多个知识图边的并集的比率。9.一种非暂时性计算机介质，具有存储在其上的可执行指令，当由至少一个硬件处理器执行时，所述可执行指令执行包括以下各项的自动化操作：接收包括源数据主题实体和多个源数据边的源数据，其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对；从所述源数据主题实体和所述多个源数据边生成源数据图；在知识图中识别具有多个知识图边的候选主题实体，其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对；确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度，所述子图具有与所述候选主题实体相关联的多个知识图边；以及响应于确定所述相似度大于阈值，将所述源数据图合并到所述知识图中。10.如权利要求9所述的介质，还包括：使用所述知识图的候选主题实体和所述多个知识图边来生成所述知识图的子图。11.如权利要求9所述的介质，其中，所述多个源数据边中的每一个中的关系存在于所述知识图中。12.如权利要求9所述的介质，其中，所述...

【专利技术属性】
技术研发人员：翟静，王俊晴，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人