当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于教育知识图谱与文本的混合自动问答方法技术

技术编号:21914024 阅读:81 留言:0更新日期:2019-08-21 12:26
本发明专利技术属于智慧教育问答技术领域,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法,包括:通过构建基础教育本体、语义标注、信息抽取来构建基础教育知识图谱;根据关键词结合正则表达式,构建问题的通用模板;搭建全文搜索引擎,对海量文本进行预处理;将试题问答对作为训练集合,训练至深度文本匹配模型收敛;对用户问题进行识别得到主语列表,并赋予置信度;进行模板匹配得到谓语列表,并赋予置信度;根据主语和谓语列表查询知识图谱得到答案列表,并赋予置信度;使用词性标注方法得到关键词,进行粗、细粒度匹配得到答案并排序;如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。

A Hybrid Automatic Question Answering Method Based on Educational Knowledge Map and Text

【技术实现步骤摘要】
一种基于教育知识图谱与文本的混合自动问答方法
本专利技术属于智慧教育问答
,尤其涉及一种基于教育知识图谱与文本的混合自动问答方法。
技术介绍
智慧教育(SmartEducation),已成为信息化时代背景下教育领域发展的一个重要形态。智慧教育的本质在于利用智能化的技术手段构建智能环境,使学生能够更快更好的获取知识,解答问题。而自动问答系统,无疑是一个非常行之有效的方法。一方面,自动问答系统可以帮助中小学生答疑解惑,让他们在每天的学习过程中,都能够及时得到问题的答案。另一方面,因其良好的人机交互性,能显著提高学生们学习知识的积极性。因此,构建一个能够准确理解学生提出的问题,并迅速给出精确答案的问答系统十分必要。早期的问答系统是基于模板的“专家系统”,方法是针对特定领域人工制定规则来构造模板,这种系统最明显的缺点是只能在特定领域针对少量的数据进行处理;随着搜索技术发展,诞生了开放域的检索式问答(IE-QA),即根据问题中的关键字及语义关系,在大量的文本中抽取出问题的答案,如IBM的“Waston”、“TREC”等,这种问答方式在一定程度上解决了覆盖领域狭窄的问题,但是由于文本质量的良莠不齐,因此抽取出的答案精确程度不高;后来,互联网社区逐步兴起,很多的互联网公司开发出了面向社区的问答,如“知乎”、“StackOverflow”等,该种问答形式的本质是指给用户提供了一个聚合的平台,答案的正确性需要用户自己判断。谷歌提出的“知识图谱”的概念,定义了一种全新的知识组织方式。其试图从数据本身出发,将非结构化的数据转变为结构化的数据,并将各种数据连通在一起形成一个包含海量结构化数据的图模型。这种结构化的图模型数据,为问答系统的发展提供了一个新的发展方向,即基于知识图谱的问答系统(KB-QA),由于其能够充分利用知识图谱中的结构化数据为用户提供非常简洁、精确的答案,因而逐步成为较为重要的问答系统研究方向。同时,也能够为“下一代智能检索”、“类人机器人”的发展提供非常有效的帮助。目前,人们已经对基础教育领域问答系统开展了一些工作,但是这些工作存在着以下问题:只基于知识图谱或文本等单一来源做问答,未能综合利用两种来源各自的优势,具体体现在:知识图谱中的知识精确、结构化程度高,但是对知识的覆盖率不如文本;文本中蕴含所有知识,但是由于非结构化,语义解析较为困难;如果只基于知识图谱来回答用户问题,那么很多问题都回答不了;如果只基于文本回答用户问题,则很多问题都会回答错误。只有很好地结合以上两种来源的知识,对两种来源的答案进行综合排序,才有可能充分利用两种来源的优势,针对用户提出的问题返回最全面最准确的答案。此外,对于基础教育领域而言,教材教辅是最权威的资源,已有基础教育问答系统并未对教材教辅中的知识进行精细的挖掘和加工;基础教育领域中知识点的跨学科关联较多,已有基础教育问答系统并未对全学科的知识进行综合考虑。
技术实现思路
针对上述技术问题,本专利技术提出了一种基于教育知识图谱与文本的混合自动问答方法,该方法包括:步骤1:构建基础教育本体,对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱;根据关键词结合正则表达式语法,构建问题的通用模板;步骤2:搭建全文搜索引擎,对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式;将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;步骤3:对用户问题进行实体识别得到主语列表,并赋予每个主语相应的置信度;对用户问题进行模板匹配得到谓语列表,并赋予每个谓语相应的置信度;根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表,并赋予每个答案相应的置信度;步骤4:使用词性标注方法得到问题中的不同等级的关键词,输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表;使用预训练好的深度文本匹配模型,对基于文本的答案列表进行细粒度的匹配,得到答案并排序;步骤5:如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。所述基础教育本体通过半自动本体构建方法构建。所述信息抽取用于扩充知识的实例、关系和属性。所述构建问题的通用模板具体包括:基于教育知识图谱中的关系或属性作为关键词,结合正则表达式语法,形成针对该类型问题的通用模板;利用句法分析工具对大规模教育问答数据集中的问题进行分析,抽取出关键词,结合正则表达式语法,形成针对该类型问题的通用模板;基于高区分度疑问词生成模板;基于通用疑问词生成模板。所述全文搜索引擎为可扩展的开源全文搜索和分析引擎elasticsearch。所述赋予每个主语相应的置信度具体包括:与实例表中实例完全匹配,置信度为1;通过模板分割得到并去除停用词后的实例,置信度为0.8;通过模糊匹配相似度计算、最长公共子串匹配得到的实例,置信度为0.6。所述赋予每个谓语相应的置信度具体包括:基于教育知识图谱中关系或属性生成的模板,置信度为1;基于句法分析提取出的关键词生成的模板,置信度为1;基于高区分度疑问词生成的模板,置信度为2;基于通用疑问词生成的模板,置信度为3。所述赋予每个答案相应的置信度具体包括:对主语列表和谓语列表进行逐一组合,生成sparql查询语句;查询教育知识图谱,得到答案列表;按照预设规则赋予每个答案相应置信度,置信度计算法包括:计算公式为:score=subjectscore×pscore;pscore是谓语的得分,subjectscore是主语得分;pscore由模板置信度确定,pscore=1/模板置信度;subjectScore由主语置信度确定,subjectScore=20×rate×主语的置信度;rate由主语和问句的最长公共子串所确定:rate=平方根函数Math.sqrt(最长公共子串的长度/主语的长度)×幂函数Math.pow(主语的长度,1.0/2)。所述词性标注方法具体包括:将词性为名词n、动词v、人名nr和其他主语或谓语的词语设为一级关键词;将副词d,数词m,名语素Ng和其他修饰主语或谓语的词语设为二级关键词;将连词c,副语素Dg,叹词e,方位词f和关键词无关的词语设为三级关键词。所述粗粒度匹配具体包括:对每个一级关键词都进行严格的词组查询,并对所有的词组查询进行或逻辑连接,设定至少匹配50%的查询;对每个二级关键词都进行为严格的词组查询,并对所有的词组查询进行或逻辑连接,不设定至少匹配查询数量;不对三级关键词做任何查询。本专利技术的有益效果:本专利技术实现了语文、数学、英语、政治、历史、地理、物理、化学和生物九门基础教育学科全覆盖,以教材教辅为主,海量互联网资源为辅,充分发挥KB-QA回答高效精确的特点及IE-QA覆盖面广的特点,保证针对用户的问题,返回最准确的答案。附图说明图1:本专利技术实施例提供的一种基于教育知识图谱的混合问答系统系统结构图。图2:本专利技术实施例提供的深度文本匹配模型结构图。具体实施方式下面结合附图,对实施例作详细说明。图1示出了本专利技术实施例提出的一种基于教育知识图谱的混合自动问答方法的流程图。参照图1,本专利技术实施例提出的基础教育知识图谱的构建方法包括:S1、教育知识图谱及模板构建;S2、电本文档来自技高网
...

【技术保护点】
1.一种基于教育知识图谱与文本的混合自动问答方法,其特征在于,包括:步骤1:构建基础教育本体,对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱;根据关键词结合正则表达式语法,构建问题的通用模板;步骤2:搭建全文搜索引擎,对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式;将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;步骤3:对用户问题进行实体识别得到主语列表,并赋予每个主语相应的置信度;对用户问题进行模板匹配得到谓语列表,并赋予每个谓语相应的置信度;根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表,并赋予每个答案相应的置信度;步骤4:使用词性标注方法得到问题中的不同等级的关键词,输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表;使用预训练好的深度文本匹配模型,对基于文本的答案列表进行细粒度的匹配,得到答案并排序;步骤5:如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。

【技术特征摘要】
1.一种基于教育知识图谱与文本的混合自动问答方法,其特征在于,包括:步骤1:构建基础教育本体,对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱;根据关键词结合正则表达式语法,构建问题的通用模板;步骤2:搭建全文搜索引擎,对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式;将基础教育大规模试题问答对作为训练集合,并使用深度文本匹配模型训练至模型收敛;步骤3:对用户问题进行实体识别得到主语列表,并赋予每个主语相应的置信度;对用户问题进行模板匹配得到谓语列表,并赋予每个谓语相应的置信度;根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表,并赋予每个答案相应的置信度;步骤4:使用词性标注方法得到问题中的不同等级的关键词,输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表;使用预训练好的深度文本匹配模型,对基于文本的答案列表进行细粒度的匹配,得到答案并排序;步骤5:如果基于教育知识图谱的答案的最高置信度超过阈值,则返回该答案;否则返回基于文本的排序最前的答案。2.根据权利要求1所述自动问答方法,其特征在于,所述基础教育本体通过半自动本体构建方法构建。3.根据权利要求1所述自动问答方法,其特征在于,所述信息抽取用于扩充知识的实例、关系和属性。4.根据权利要求1所述自动问答方法,其特征在于,所述构建问题的通用模板具体包括:基于教育知识图谱中的关系或属性作为关键词,结合正则表达式语法,形成针对该类型问题的通用模板;利用句法分析工具对大规模教育问答数据集中的问题进行分析,抽取出关键词,结合正则表达式语法,形成针对该类型问题的通用模板;基于高区分度疑问词生成模板;基于通用疑问词生成模板。5.根据权利要求1所述自动问答方法,其特征在于,所述全文搜索引擎为可扩展的开源全文搜索和分析引擎elasticsearch。6.根据权利要求1所述自动问答方法,其特征在于,所述赋予每个主语相应的置信度具体包括...

【专利技术属性】
技术研发人员:许斌刘阳杨玉基
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1