【技术实现步骤摘要】
一种基于多指标的知识图谱生成方法
本专利技术涉及计算机文本处理
,特别是一种知识图谱的生成方法。
技术介绍
知识图谱是通用的知识可视化和存储工具。由于知识的复杂性和多样性,制作知识图谱需要耗费大量的人力。自动生成的知识图谱一般只针对存在大量数据的领域,针对数据较少特定的领域效果较差。因此需要一种方法,在少量人工参与或无人工参与的情况下,提高特定领域知识图谱质量的方法。
技术实现思路
本专利技术针对上述问题,提供一种基于多指标的知识图谱生成方法,具体包括以下步骤:S001,定义数据库数据结构,定义的数据结构包括实体、关系、实体属性和关系属性四种类型;所述实体最少包含名称、别称、文档ID三个属性;所述关系为两个实体之间的有向链接,链接从起始实体出发,指向结束实体,并最少包含名称属性;所述实体属性对应到具体的实体,为该对应实体中的键值对信息;关系属性对应到具体的关系,为该对应关系中的键值对信息;S002,输入信息;所述信息为实体、关系、实体属性和关系属性中的一种或多种;S003,对 ...
【技术保护点】
1.一种基于多指标的知识图谱生成方法,其特征在于,包括以下步骤:/nS001,定义数据库数据结构,定义的数据结构包括实体、关系、实体属性和关系属性四种类型;所述实体最少包含名称、别称、文档ID三个属性;所述关系为两个实体之间的有向链接,链接从起始实体出发,指向结束实体,并最少包含名称属性;所述实体属性对应到具体的实体,为该对应实体中的键值对信息;关系属性对应到具体的关系,为该对应关系中的键值对信息;/nS002,输入信息;所述信息为实体、关系、实体属性和关系属性中的一种或多种;/nS003,对输入的信息分别逐一进行匹配,匹配成功直接执行步骤S007,匹配失败执行步骤S004 ...
【技术特征摘要】
1.一种基于多指标的知识图谱生成方法,其特征在于,包括以下步骤:
S001,定义数据库数据结构,定义的数据结构包括实体、关系、实体属性和关系属性四种类型;所述实体最少包含名称、别称、文档ID三个属性;所述关系为两个实体之间的有向链接,链接从起始实体出发,指向结束实体,并最少包含名称属性;所述实体属性对应到具体的实体,为该对应实体中的键值对信息;关系属性对应到具体的关系,为该对应关系中的键值对信息;
S002,输入信息;所述信息为实体、关系、实体属性和关系属性中的一种或多种;
S003,对输入的信息分别逐一进行匹配,匹配成功直接执行步骤S007,匹配失败执行步骤S004;
S004,信息匹配:根据匹配失败信息的数据结构类型,相应生成处理方案;
S005,以多指标参数计算各个处理方案的置信度;
S006,根据所述置信度选择该匹配失败信息的处理方案;
S007,以匹配成功的输入信息或者选择的处理方案更新所述数据库的数据,即更新知识图谱,后续再次进行信息输入更新知识图谱时从步骤S002开始。
2.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S002中输入为实体、关系、实体属性和关系属性信息由人工标注或者数据模型预测得到。
3.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S002到步骤S003之间还包括信息过滤步骤,通过输入信息的声量参数和设定声量阈值进行过滤,将声量小于所述声量阈值的输入信息过滤掉。
4.根据权利要求1所述的基于多指标的知识图谱生成方法,其特征在于:所述步骤S003的信息匹配中,根据所述输入信息类型相应生成的处理方案不同,后续步骤S005计算相应处理方案置信度的方法也不相同。
5.根据权利要求4所述的基于多指标的知识图谱生...
【专利技术属性】
技术研发人员:何宇轩,牟昊,徐亚波,李旭日,
申请(专利权)人:广州数说故事信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。