基于知识图谱的自助问答系统技术方案

技术编号:32131350 阅读:18 留言:0更新日期:2022-01-29 19:31
本发明专利技术公开了一种基于知识图谱的自助问答系统,包括:知识图谱构建模块,用于根据应用领域的先验信息收集相关的本体知识及本体框架,并以此对数据集中的文本进行分析,提取出相应的实体、关系及属性,并构建知识图谱;问答系统模块,用于对输入的问句进行分类,并对分类结果进行解析,利用解析结果在所述知识图谱进行检索,获得相应的问答结果。该系统通过设置知识图谱构建模块与问答系统模块能够保证基于知识图谱的自助问答系统正常工作,采用自顶向下的知识图谱构建方法,可以形成良好的层次结构;采用Aho

【技术实现步骤摘要】
基于知识图谱的自助问答系统


[0001]本专利技术涉及信息与信号处理领域,尤其涉及一种基于知识图谱的自助问答系统。

技术介绍

[0002]随着技术水平的不断提高,不同于传统的通过纸面或者咨询机构获取信息的方式信息,目前人们可以通过互联网平台来获取所需信息,例如,新闻、历史、地理等各个领域的信息。日常生活中,人们通常使用计算机或者移动设备访问互联网平台,获取信息的效率远远高于传统信息获取方式,而且互联网平台中的信息也是时刻更新的。
[0003]但是,对于某些年龄偏大、不会使用计算机或者移动设备的用户,他们难以通过互联网平台来查询所需信息,因此,依据采用传统方式获取信息,如果通过纸面方式查询则效率过低,通过咨询机构查询,则将增大咨询机构的压力;因此,有必要研发自助问答系统,以帮助用户充分了解所要掌握的知识,缓解咨询机构的压力。

技术实现思路

[0004]本专利技术的目的是提供一种基于知识图谱的自助问答系统,可以帮助用户充分了解所要掌握的知识,缓解咨询机构的压力。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种基于知识图谱的自助问答系统,包括:
[0007]知识图谱构建模块,用于根据应用领域的先验信息收集相关的本体知识及本体框架,并以此对数据集中的文本进行分析,提取出相应的实体、关系及属性,并构建知识图谱;
[0008]问答系统模块,用于对输入的问句进行分类,并对分类结果进行解析,利用解析结果在所述知识图谱进行检索,获得相应的问答结果。/>[0009]由上述本专利技术提供的技术方案可以看出,设置知识图谱构建模块与问答系统模块能够保证基于知识图谱的自助问答系统正常工作,采用自顶向下的知识图谱构建方法,可以形成良好的层次结构;采用Aho

Corasick多模式匹配算法可以做到从文本中一次性匹配出多个字符串,并且可以实现对目标字符串的定位,提高了文本匹配效率。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0011]图1为本专利技术实施例提供的一种基于知识图谱的自助问答系统的示意图;
[0012]图2为本专利技术实施例提供的知识图谱构建模块的示意图;
[0013]图3为本专利技术实施例提供的问答系统模块的示意图。
具体实施方式
[0014]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0015]首先对本文中可能使用的术语进行如下说明:
[0016]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0017]下面对本专利技术所提供的一种基于知识图谱的自助问答系统进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0018]如图1所示,一种基于知识图谱的自助问答系统,主要包括:
[0019]知识图谱构建模块,用于根据应用领域的先验信息收集相关的本体知识及本体框架,并以此对数据集中的文本进行分析,提取出相应的实体、关系及属性,并构建知识图谱;
[0020]问答系统模块,用于对输入的问句进行分类,并对分类结果进行解析,利用解析结果在所述知识图谱进行检索,获得相应的问答结果。
[0021]为了便于理解,下面针对系统各模块做详细的介绍。
[0022]一、知识图谱构建模块。
[0023]本专利技术实施例中,所述知识图谱构建模块包括:模式层、数据层和知识存储层。如图2所示,本专利技术实施例中采用自顶向下的设计方法,即先构建模式层,再构建数据层,最后实现知识存储层。
[0024]1、模式层。
[0025]所述模式层,用于存储抽象后的知识,包括:根据应用领域利用web爬虫技术从相应的网站上爬取结构化的数据,从中获得相应的本体知识及本体框架;或者从百科全书中进行查找,获得相应的本体知识及本体框架;所述的本体知识及本体框架即为抽象后的知识。
[0026]本专利技术实施例中,所述知识是对数据层中的数据进行本体的概念归纳。通过百科全书与相应网站来收集相应的本体知识及本体框架。
[0027]以慢性病知识为例,可以从一些医疗搜索网站或者医用百科全书中进行查找,本体框架的确定应该做到在满足本体构建的原则基础上使得层级结构合理,比如“宜食”、“忌食”是建立在“食物”类的下一层级,不能混乱。利用web爬虫技术对医疗搜索网站进行结构化的数据爬取时,爬取过程中可能会遇到某些值不存在或者是一些非结构化的文本信息,此时采用人工方式手动添加或修改相关信息,保证最终构建知识图谱所需要的数据是具有设定格式的数据。然后将数据存储在MongoDB非关系型数据库中,同时导出JSON数据,方便在后续构建知识图谱的过程中提取相应的实体、关系、属性。
[0028]需要说明的是,此处仅以慢性病这一应用为例进行介绍,对于其他应用(比如,地
理问答、历史问答等应用)是采用相同的方式获取抽象后的知识。
[0029]2、数据层。
[0030]所述数据层,用于对数据集中的文本进行分析,并依照所述本体知识及本体框架提取出相应的实体、关系及属性。比如对于一句话:“肝硬化宜吃食物有鱼类、牛肉、豆浆、叶类蔬菜等,忌吃食物有罐头、动物脂肪等。”可以解析出其实体包含“肝硬化”、“鱼类”、“牛肉”、“豆浆”、“叶类蔬菜”、“罐头”、“动物脂肪”;关系包含“宜吃”、“忌吃”;属性包含“疾病名称”、“饮食宜忌”。
[0031]具体如表1、表2、表3所示,提供了慢性病这一应用中5种实体类型、6种关系类型、6种属性类型的示例。
[0032][0033]表1知识图谱实体类型
[0034][0035]表2知识图谱关系类型
[0036][0037]表3知识图谱属性类型
[0038]此外,如图2的箭头所示,数据层提取出实体关系属性这些知识能够保存下来作为数据集,从而继续为其他领域构建的知识图谱使用。
[0039]3、知识存储层。
[0040]所述知识存储层所述知识存储层为基于Neo4j的图数据库存储,所述基于Neo4j的图数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的自助问答系统,其特征在于,包括:知识图谱构建模块,用于根据应用领域的先验信息收集相关的本体知识及本体框架,并以此对数据集中的文本进行分析,提取出相应的实体、关系及属性,并构建知识图谱;问答系统模块,用于对输入的问句进行分类,并对分类结果进行解析,利用解析结果在所述知识图谱进行检索,获得相应的问答结果。2.根据权利要求1所述的一种基于知识图谱的自助问答系统,其特征在于,所述知识图谱构建模块包括:模式层、数据层和知识存储层;其中:所述模式层,用于存储抽象后的知识,包括:根据应用领域利用web爬虫技术从相应的网站上爬取结构化的数据,从中获得相应的本体知识及本体框架;或者从百科全书中进行查找,获得相应的本体知识及本体框架;所述的本体知识及本体框架即为抽象后的知识;所述数据层,用于对数据集中的文本进行分析,并依照所述本体知识及本体框架提取出相应的实体、关系及属性;所述知识存储层所述知识存储层为基于Neo4j的图数据库存储,所述基于Neo4j的图数据库以非结构形式存储数据,并能够通过Cypher语句进行数据检索。3.根据权利要求1所述的一种基于知识图谱的自助问答系统,其特征在于,所述问答系统模块包括:问题分类模块...

【专利技术属性】
技术研发人员:曹朝阳倪林
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1