基于主动学习的问答方法及采用该方法的问答系统技术方案

技术编号：10437098 阅读：141 留言：0更新日期：2014-09-17 13:41

本发明专利技术公开了一种基于主动学习的问答方法及采用该方法的问答系统，其中，所述基于主动学习的问答方法，其包含以下步骤：(1)输入提问；(2)预处理；(3)特征提取；(4)问题理解；(5)置信度，阈值门限和可信水平判断；(6)信息检索和信息处理；(7)答案抽取；(8)主动学习；(9)当置信度低于可信水平时，根据问句具体类别进行引导性提问，主动引导用户进行消除二义性的提问，进行新一轮更有效的问答。本发明专利技术公开的问答系统，其包含输入提问模块，预处理模块，语义理解模块和主动学习及输出答案模块，共计五个模块。

全部详细技术资料下载

【技术实现步骤摘要】
基于主动学习的问答方法及采用该方法的问答系统
本专利技术属于人工智能领域，具体涉及智能问答方法及其问答系统。
技术介绍
最近几年，随着网络和信息技术的快速发展，同时人们想更快更准确地获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与了自动问答技术的研究。譬如谷歌、微软、苹果和IBM等著名的跨国公司。在每年一度的文本信息检索(TREC)会议上，自动问答(QuestionAnsweringTrack)渐渐成为最受关注的主题之一。越来越多的大学和科研机构参与了TREC会议的QuestionAnsweringTrack。在2000年10月召开的ACL2000国际计算语言学学术会议上，有一个专题讨论会，题目是“Open-DomainQuestionAnswering”。目前，国外已经开发出一些相对成熟的问答系统。麻省理工(MIT)就开发出一个问答系统Start，从1993年开始发布在Internet上，网址如下：http://www.ai.mit.edu/projects/infolab/。可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如：对于问题“Whatisthelongestriverintheworld？”，Start将会回答“Withalengthof4180miles,theNileRiveristhelongestriverintheworld”,此外,还有一个相对来讲比较成熟的多语种自动智能问答系统，AnswerBus是个多语种的自动问答系统，它不仅可以回答英语的问题，还可以回答法语、西班牙语、德语、意...
基于主动学习的问答方法及采用该方法的问答系统

【技术保护点】
基于主动学习的问答方法，其包含以下步骤：(1)输入提问；在输入提问前根据可能的问题种类进行分类，分类录入问答模板并进行结构化存储，形成问答知识库索引，该问答知识库索引对应FAQ库；(2)预处理；对步骤(1)中输入的问句预处理，将问句进行分词、词性标注、合并疑问词组，去除表义较低的停用词，识别主题词，进行关键词扩展和同义词扩充，形成结构化的语法树；(3)特征提取；对预处理的结果进行特征提取，其本质是通过计算结构化语法树的TF‑IDF值形成基于字典的特征向量；(4)问题理解；通过SVM分类器对步骤(3)提取的特征进行分类，确定问句所属类别，然后通过计算从问句提取的特征向量和知识库特征向量的修正余弦相似度作为置信度，与阈值门限进行对比，如果高于阈值则在FAQ库中检索知识，形成答案后输出；如果低于阈值则执行步骤(5)；(5)如果置信度低于阈值门限，则判断置信度是否大于可信水平，当置信度大于可信水平则顺序执行步骤(6)，步骤(7)和步骤(8)；当置信度小于可信水平则执行步骤(9)；(6)信息检索和信息处理；在Web端进行信息检索，为克服布尔逻辑式不能完整反映用户意图的缺陷，采用布尔模型对布尔理论...

【技术特征摘要】
1.基于主动学习的问答方法，其包含以下步骤：(1)输入提问；在输入提问前根据可能的问题种类进行分类，分类录入问答模板并进行结构化存储，形成问答知识库索引，该问答知识库索引对应FAQ库；(2)预处理；对步骤(1)中输入的问句预处理，将问句进行分词、词性标注、合并疑问词组，去除表义较低的停用词，识别主题词，进行关键词扩展和同义词扩充，形成结构化的语法树；(3)特征提取；对预处理的结果进行特征提取，其本质是通过计算结构化语法树的TF-IDF值形成基于字典的特征向量；(4)问题理解；通过SVM分类器对步骤(3)提取的特征进行分类，确定问句所属类别，然后通过计算从问句提取的特征向量和知识库特征向量的修正余弦相似度作为置信度，与阈值门限进行对比，如果高于阈值则在FAQ库中检索知识，形成答案后输出；如果低于阈值则执行步骤(5)；(5)如果置信度低于阈值门限，则判断置信度是否大于可信水平，当置信度大于可信水平则顺序执行步骤(6)，步骤(7)和步骤(8)；当置信度小于可信水平则执行步骤(9)；(6)信息检索和信息处理；在Web端进行信息检索，为克服布尔逻辑式不能完整反映用户意图的缺陷，采用布尔模型对布尔理论进行改造，然后再通过相关度排序建立索引；(7)答案抽取；抽取与问句语义相关度较大的文档，通过对文档分割和过滤抽取答案，并且对答案进行整合，形成最后的回答；(8)主动学习；当步骤(7)中形成的回答是涉及实时事实的求知性提问，则直接给出结果，否则将问句和回答根据类别录入问答模板，更新知识库，实现主动学习；(9)当置信度低于可信水平时，根据问句具体类别进行引导性提问，主动引导用户进行消除二义性的提问，进行新一轮更有效的问答；所述SVM分类器构造如下：假设问答系统中话题类别种类有M类，建立M个支持向量机，识别输入的特征向量x的分类时，选择gj(x)最大的分类：fj(x)＝sign(gj(x)),j∈[1,M]所述修正余弦相似度计算公式如下：

【专利技术属性】
技术研发人员：高传清，杨少毅，褚智威，
申请(专利权)人：西安蒜泥电子科技有限责任公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人