一种基于教育知识图谱与文本的混合自动问答方法技术

技术编号：21914024 阅读：81 留言：0更新日期：2019-08-21 12:26

本发明专利技术属于智慧教育问答技术领域，尤其涉及一种基于教育知识图谱与文本的混合自动问答方法，包括：通过构建基础教育本体、语义标注、信息抽取来构建基础教育知识图谱；根据关键词结合正则表达式，构建问题的通用模板；搭建全文搜索引擎，对海量文本进行预处理；将试题问答对作为训练集合，训练至深度文本匹配模型收敛；对用户问题进行识别得到主语列表，并赋予置信度；进行模板匹配得到谓语列表，并赋予置信度；根据主语和谓语列表查询知识图谱得到答案列表，并赋予置信度；使用词性标注方法得到关键词，进行粗、细粒度匹配得到答案并排序；如果基于教育知识图谱的答案的最高置信度超过阈值，则返回该答案；否则返回基于文本的排序最前的答案。

A Hybrid Automatic Question Answering Method Based on Educational Knowledge Map and Text

全部详细技术资料下载

【技术实现步骤摘要】
一种基于教育知识图谱与文本的混合自动问答方法
本专利技术属于智慧教育问答
，尤其涉及一种基于教育知识图谱与文本的混合自动问答方法。
技术介绍
智慧教育(SmartEducation)，已成为信息化时代背景下教育领域发展的一个重要形态。智慧教育的本质在于利用智能化的技术手段构建智能环境，使学生能够更快更好的获取知识，解答问题。而自动问答系统，无疑是一个非常行之有效的方法。一方面，自动问答系统可以帮助中小学生答疑解惑，让他们在每天的学习过程中，都能够及时得到问题的答案。另一方面，因其良好的人机交互性，能显著提高学生们学习知识的积极性。因此，构建一个能够准确理解学生提出的问题，并迅速给出精确答案的问答系统十分必要。早期的问答系统是基于模板的“专家系统”，方法是针对特定领域人工制定规则来构造模板，这种系统最明显的缺点是只能在特定领域针对少量的数据进行处理；随着搜索技术发展，诞生了开放域的检索式问答(IE-QA)，即根据问题中的关键字及语义关系，在大量的文本中抽取出问题的答案，如IBM的“Waston”、“TREC”等，这种问答方式在一定程度上解决了覆盖领域狭窄的问题，但是由于文本质量的良莠不齐，因此抽取出的答案精确程度不高；后来，互联网社区逐步兴起，很多的互联网公司开发出了面向社区的问答，如“知乎”、“StackOverflow”等，该种问答形式的本质是指给用户提供了一个聚合的平台，答案的正确性需要用户自己判断。谷歌提出的“知识图谱”的概念，定义了一种全新的知识组织方式。其试图从数据本身出发，将非结构化的数据转变为结构化的数据，并将各种数据连通在一起形成一个...

【技术保护点】
1.一种基于教育知识图谱与文本的混合自动问答方法，其特征在于，包括：步骤1：构建基础教育本体，对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱；根据关键词结合正则表达式语法，构建问题的通用模板；步骤2：搭建全文搜索引擎，对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式；将基础教育大规模试题问答对作为训练集合，并使用深度文本匹配模型训练至模型收敛；步骤3：对用户问题进行实体识别得到主语列表，并赋予每个主语相应的置信度；对用户问题进行模板匹配得到谓语列表，并赋予每个谓语相应的置信度；根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表，并赋予每个答案相应的置信度；步骤4：使用词性标注方法得到问题中的不同等级的关键词，输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表；使用预训练好的深度文本匹配模型，对基于文本的答案列表进行细粒度的匹配，得到答案并排序；步骤5：如果基于教育知识图谱的答案的最高置信度超过阈值，则返回该答案；否则返回基于文本的排序最前的答案。

【技术特征摘要】
1.一种基于教育知识图谱与文本的混合自动问答方法，其特征在于，包括：步骤1：构建基础教育本体，对多种学科教材教辅进行语义标注后对教材教辅和互联网百科文本资源进行信息抽取来构建全学科基础教育知识图谱；根据关键词结合正则表达式语法，构建问题的通用模板；步骤2：搭建全文搜索引擎，对教材教辅和互联网百科的海量文本进行预处理来符合所述搜索引擎的索引格式；将基础教育大规模试题问答对作为训练集合，并使用深度文本匹配模型训练至模型收敛；步骤3：对用户问题进行实体识别得到主语列表，并赋予每个主语相应的置信度；对用户问题进行模板匹配得到谓语列表，并赋予每个谓语相应的置信度；根据主语列表和谓语列表查询所述知识图谱得到基于教育知识图谱的答案列表，并赋予每个答案相应的置信度；步骤4：使用词性标注方法得到问题中的不同等级的关键词，输入所述搜索引擎进行粗粒度匹配得到基于文本的答案列表；使用预训练好的深度文本匹配模型，对基于文本的答案列表进行细粒度的匹配，得到答案并排序；步骤5：如果基于教育知识图谱的答案的最高置信度超过阈值，则返回该答案；否则返回基于文本的排序最前的答案。2.根据权利要求1所述自动问答方法，其特征在于，所述基础教育本体通过半自动本体构建方法构建。3.根据权利要求1所述自动问答方法，其特征在于，所述信息抽取用于扩充知识的实例、关系和属性。4.根据权利要求1所述自动问答方法，其特征在于，所述构建问题的通用模板具体包括：基于教育知识图谱中的关系或属性作为关键词，结合正则表达式语法，形成针对该类型问题的通用模板；利用句法分析工具对大规模教育问答数据集中的问题进行分析，抽取出关键词，结合正则表达式语法，形成针对该类型问题的通用模板；基于高区分度疑问词生成模板；基于通用疑问词生成模板。5.根据权利要求1所述自动问答方法，其特征在于，所述全文搜索引擎为可扩展的开源全文搜索和分析引擎elasticsearch。6.根据权利要求1所述自动问答方法，其特征在于，所述赋予每个主语相应的置信度具体包括...

【专利技术属性】
技术研发人员：许斌，刘阳，杨玉基，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人