【技术实现步骤摘要】
一种基于自然语言生成技术的知识图谱辅助理解系统
本专利技术涉及知识图谱
,尤其涉及一种基于自然语言生成技术的知识图谱辅助理解系统。
技术介绍
知识图谱是一个语义知识库,它通常采用主语-谓语-宾语的三元组形式表示一个知识点,相比较于本体对于逻辑和语义的严苛要求,知识图谱强调了弱语义和弱逻辑,因此在学术界和工业界,知识图谱得到了较好地推广,以谷歌为首的大型互联网公司纷纷开始研究知识图谱以提高搜索的质量。根据2014年的报告显示,目前谷歌的知识图谱已经搜集到了超过16亿的事实,其中2.71亿个事实的真实性被认为超过90%。在2016年5月的Google搜索中,知识图谱大约回答了该月1000亿次搜索中的三分之一的问题。自然语言生成技术是自然语言处理技术的其中一大技术。不同于自然语言理解,自然语言生成技术关注的是计算机如何以自然语言文本来表达给定的含义、思想等。对于知识图谱,尤其是特定领域的知识图谱,其对于实际应用的知识图谱的准确性要求非常高,例如医学相关的知识图谱,其知识图谱的质量严重关系到整个系统的准确性。然而构建知识图谱的编程语言和本体一样,主要是RDF(ResourceDescriptionFramework,资源描述框架)、OWL(WebOntologyLanguage,网络本体语言),采用的软件主要是斯坦福大学开发的Protégé等。这些语言和软件专业性强,如果没有经过长期学习和培训,非相关人员很难理解其具体含义。同时以OWL和RDF存储的知识点是无序的,同一内容相关的知识点存储在程序的不同部位,这进一步加大了领域专家直接理解知识图谱的源代码的难度 ...
【技术保护点】
1.一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,该系统包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;所述知识图谱选择模块用于获取符合RDF或OWL语法规范的目标知识图谱;所述知识图谱翻译模块:首先提取目标知识图谱的三元组,对提取的三元组进行字符串分割得到三个动态数组:主语数组、谓语数组、宾语数组,三者之间具有一一对应关系,然后通过嵌套循环,利用simplenlg工具对主语、谓语和宾语进行组装,形成一句完整的短句;同时对于主语‑谓语‑宾语的关系存在一对一对多和一对多对多的情况,在谓语数组和宾语数组中加入特殊字符进行标识,以确定该谓语对应某一主语以及该宾语对应某一主语和某一谓语,然后在嵌套循环中判断这些特殊字符以确定主语、谓语、宾语的对应关系,利用simplenlg工具对对应的主语、谓语和宾语进行组装,形成一个完整的长句;其中注解部分对应的三元组不单独成句,而是作为补充其他句子的注解信息;然后将目标知识图谱翻译成短句和长句,句子得到进一步规范后被存入本地数据库中,并从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件;所述结果展示 ...
【技术特征摘要】
1.一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,该系统包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;所述知识图谱选择模块用于获取符合RDF或OWL语法规范的目标知识图谱;所述知识图谱翻译模块:首先提取目标知识图谱的三元组,对提取的三元组进行字符串分割得到三个动态数组:主语数组、谓语数组、宾语数组,三者之间具有一一对应关系,然后通过嵌套循环,利用simplenlg工具对主语、谓语和宾语进行组装,形成一句完整的短句;同时对于主语-谓语-宾语的关系存在一对一对多和一对多对多的情况,在谓语数组和宾语数组中加入特殊字符进行标识,以确定该谓语对应某一主语以及该宾语对应某一主语和某一谓语,然后在嵌套循环中判断这些特殊字符以确定主语、谓语、宾语的对应关系,利用simplenlg工具对对应的主语、谓语和宾语进行组装,形成一个完整的长句;其中注解部分对应的三元组不单独成句,而是作为补充其他句子的注解信息;然后将目标知识图谱翻译成短句和长句,句子得到进一步规范后被存入本地数据库中,并从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件;所述结果展示模块从本地数据库调取目标知识图谱的翻译内容,将翻译内容以及目标知识图谱的源文件进行共同展示,同时获取JSON格式的文件,通过可视化工具绘制树状图,对知识图谱中的类与子类以及类与实例的层级结构进行可视化展示。2.根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱选择模块获取目标知识图谱的途径包括两种:途径一:从开源知识图谱数据库中爬取符合RDF或OWL语法规范的知识图谱,对爬取的知识图谱通过知识图谱翻译模块进行翻译,将翻译结果存入本地数据库中;当用于在系统中搜索某一主题的知识图谱时,输入名称与知识图谱的英文名称进行相似度计算,按相似度从大到小进行排序,得到待选目标知识图谱;途径二:用户上传符合RDF或OWL语法规范的知识图谱作为目标知识图谱。3.根据权利要求2所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,获取目标知识图谱的途径一中,相似度判断系数采用Jaccard相似系数。将用户输入名称的概念集合记为C1,知识图谱英文名称的概念集合记为C2,则两者之间的Jaccard相似系数J(C1,C2)为:如果C1和C2完全相同,则J(C1,C2)值为1;每次搜索结果按照相似度大小排序。4.根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中提取目标知识图谱的三元组的步骤具体如下:利用SPARQL提取目标知识图谱中全部知识点(类、实例、对象属性、数据属性、注解等)对应的主语、谓语和宾语,并将其编码成资源描述框架的三元组。5.根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中目标知识图谱的短句生成步骤具体如下:首...
【专利技术属性】
技术研发人员:李劲松,吕可伟,尚勇,周天舒,
申请(专利权)人:之江实验室,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。