基于主动学习的问答方法及采用该方法的问答系统技术方案

技术编号:10437098 阅读:141 留言:0更新日期:2014-09-17 13:41
本发明专利技术公开了一种基于主动学习的问答方法及采用该方法的问答系统,其中,所述基于主动学习的问答方法,其包含以下步骤:(1)输入提问;(2)预处理;(3)特征提取;(4)问题理解;(5)置信度,阈值门限和可信水平判断;(6)信息检索和信息处理;(7)答案抽取;(8)主动学习;(9)当置信度低于可信水平时,根据问句具体类别进行引导性提问,主动引导用户进行消除二义性的提问,进行新一轮更有效的问答。本发明专利技术公开的问答系统,其包含输入提问模块,预处理模块,语义理解模块和主动学习及输出答案模块,共计五个模块。

【技术实现步骤摘要】
基于主动学习的问答方法及采用该方法的问答系统
本专利技术属于人工智能领域,具体涉及智能问答方法及其问答系统。
技术介绍
最近几年,随着网络和信息技术的快速发展,同时人们想更快更准确地获取信息的愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与了自动问答技术的研究。譬如谷歌、微软、苹果和IBM等著名的跨国公司。在每年一度的文本信息检索(TREC)会议上,自动问答(QuestionAnsweringTrack)渐渐成为最受关注的主题之一。越来越多的大学和科研机构参与了TREC会议的QuestionAnsweringTrack。在2000年10月召开的ACL2000国际计算语言学学术会议上,有一个专题讨论会,题目是“Open-DomainQuestionAnswering”。目前,国外已经开发出一些相对成熟的问答系统。麻省理工(MIT)就开发出一个问答系统Start,从1993年开始发布在Internet上,网址如下:http://www.ai.mit.edu/projects/infolab/。可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如:对于问题“Whatisthelongestriverintheworld?”,Start将会回答“Withalengthof4180miles,theNileRiveristhelongestriverintheworld”,此外,还有一个相对来讲比较成熟的多语种自动智能问答系统,AnswerBus是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。国内也有一些研究机构参与了自动问答技术的研究:中科院计算所、复旦大学、香港科技大学。但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。从这些系统来看,它们的结构基本上都分为三个模块:问题分析与理解,信息检索,答案抽取。这种结构模式也为国内外大多数研究机构所采用,方案算是比较成熟的。差别之处就在于,首先,由于语言本身的原因,国外的研究不需要考虑对句子的分词,英语的疑问词可以作为问题分类的标记,问题类型的确定也就变得容易了。在中文系统中分词和词性标注贯穿始终,如果分词不准确则系统的每一步理解都会有误差,以至于最后得到的答案将答非所问,这也是中文自然语言处理的难点所在。其次,由于检索技术的不一样,也会影响回答的准确率。答案抽取基本上是以权重排序,并从最大的文档中抽取答案,句子、词、短语,甚至多文档自动文摘都可以作为答案。鉴于目前这些方面的研究都还比较初级,所以回答准确率也比较低。目前的问答系统在遇到二义性复杂结构时无法准确进行识别和分析。通常语义理解的结果是孤立的,而不是联系用户需求的,所以无法获知问题理解的意图。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于主动学习的问答方法及采用该方法的问答系统,其利用统计学习的思想和方法,以信息检索系统为基础,通过主动学习不断丰富本地结构化数据库,使得系统可以从本地和Web端择优进行答案抽取,从而能更准确地回答用户用自然语言提出的问题。本专利技术解决其技术问题所采用的技术方案是:基于主动学习的问答方法,其包含以下步骤:(1)输入提问;在输入提问前根据可能的问题种类进行分类,分类录入问答模板并进行结构化存储,形成问答知识库索引,该问答知识库索引对应FAQ库;(2)预处理;对步骤(1)中输入的问句预处理,将问句进行分词、词性标注、合并疑问词组,去除表义较低的停用词,识别主题词,进行关键词扩展和同义词扩充,形成结构化的语法树;(3)特征提取;对预处理的结果进行特征提取,其本质是通过计算结构化语法树的TF-IDF值形成基于字典的特征向量;(4)问题理解;通过SVM分类器对步骤(3)提取的特征进行分类,确定问句所属类别,然后通过计算从问句提取的特征向量和知识库特征向量的修正余弦相似度作为置信度,与阈值门限进行对比,如果高于阈值则在FAQ库中检索知识,形成答案后输出;如果低于阈值则执行步骤(5);(5)如果置信度低于阈值门限,则判断置信度是否大于可信水平,当置信度大于可信水平则顺序执行步骤(6),步骤(7)和步骤(8);当置信度小于可信水平则执行步骤(9);(6)信息检索和信息处理;在Web端进行信息检索,为克服布尔逻辑式不能完整反映用户意图的缺陷,采用布尔模型对布尔理论进行改造,然后再通过相关度排序建立索引;(7)答案抽取;抽取与问句语义相关度较大的文档,通过对文档分割和过滤抽取答案,并且对答案进行整合,形成最后的回答;(8)主动学习;当步骤(7)中形成的回答是涉及实时事实的求知性提问,则直接给出结果,否则将问句和回答根据类别录入问答模板,更新知识库,实现主动学习;(9)当置信度低于可信水平时,根据问句具体类别进行引导性提问,主动引导用户进行消除二义性的提问,进行新一轮更有效的问答。作为上述基于主动学习的问答方法中可信水平的优选,所述步骤(5)中的可信水平为0.1。作为上述步骤(1)的一种改进,所述步骤(1)是通过语音转化模块将语音转化为文字。作为上述基于主动学习的问答方法的具体实施方式,所述SVM分类器构造如下:假设问答系统中话题类别种类有M类,建立M个支持向量机,识别输入的特征向量x的分类时,选择gj(x)最大的分类:所述修正余弦相似度计算公式如下:本专利技术还公开了采用上述基于主动学习的问答方法的问答系统,其包含输入提问模块,预处理模块,语义理解模块和主动学习及输出答案模块,共计五个模块。作为上述问答系统的一种优选实施方式,所述输入提问模块采用实时唤醒机制,即在系统任何运行状态,用户通过对系统呼喊关键词,可以实时唤醒系统;当系统完成回答会话后,系统会自动进入监听状态,等待下一轮回答会话,该过程完全由语音控制,不需要人为按键触发;输入提问模块把语音识别结果作为所述预处理模块的输入;所述预处理模块首先根据输入的内容进行分词和词性标注,根据训练语料库合并疑问词组,去除表义较低的停用词;接下来识别问句中包含的疑问词短语,根据疑问词短语找到对应的句型模式集;然后与模式集中的句型规则进行匹配,从而得到问题标准型,由此得知问题的类型;最后根据主题词在语料库中的相关问题类型进行扩展,并由扩充的同义词确定问题领域,实现对问题的有效分类,确定搜索答案时所需要的访问方式,形成结构化的语义树表示;所述语义理解模块进行特征提取和问题理解;具体地,在确知问题类别的条件下,使用长度为500的相应问题类别字典向量对结构化的语义树进行标记,向量的维度表示该类别的实词个数,相应维度上的值表示经过预处理扩充后结构化语义树的关键词TF-IDF信息;对标记后的特征向量使用SVM分类器进行分类,确定所属类别;所述主动学习模块主要包含置信度判断和可信水平判断,在相应的选择分支中分别进行信息检索、信息处理和答案抽取。作为上述优选实施方式的一种改进,所述语义理解模块中,对语义理解结果采用结构化存储方式,具体地采用Json格式标记存储;该结构存储结果包含文本内容、理解置信度、服务名称、操作名称以及语义结果;其中,文本内容是语音识别结果,理解置信度是对语义结果可信程度的度量,服务名称是本文档来自技高网
...
基于主动学习的问答方法及采用该方法的问答系统

【技术保护点】
基于主动学习的问答方法,其包含以下步骤:(1)输入提问;在输入提问前根据可能的问题种类进行分类,分类录入问答模板并进行结构化存储,形成问答知识库索引,该问答知识库索引对应FAQ库;(2)预处理;对步骤(1)中输入的问句预处理,将问句进行分词、词性标注、合并疑问词组,去除表义较低的停用词,识别主题词,进行关键词扩展和同义词扩充,形成结构化的语法树;(3)特征提取;对预处理的结果进行特征提取,其本质是通过计算结构化语法树的TF‑IDF值形成基于字典的特征向量;(4)问题理解;通过SVM分类器对步骤(3)提取的特征进行分类,确定问句所属类别,然后通过计算从问句提取的特征向量和知识库特征向量的修正余弦相似度作为置信度,与阈值门限进行对比,如果高于阈值则在FAQ库中检索知识,形成答案后输出;如果低于阈值则执行步骤(5);(5)如果置信度低于阈值门限,则判断置信度是否大于可信水平,当置信度大于可信水平则顺序执行步骤(6),步骤(7)和步骤(8);当置信度小于可信水平则执行步骤(9);(6)信息检索和信息处理;在Web端进行信息检索,为克服布尔逻辑式不能完整反映用户意图的缺陷,采用布尔模型对布尔理论进行改造,然后再通过相关度排序建立索引;(7)答案抽取;抽取与问句语义相关度较大的文档,通过对文档分割和过滤抽取答案,并且对答案进行整合,形成最后的回答;(8)主动学习;当步骤(7)中形成的回答是涉及实时事实的求知性提问,则直接给出结果,否则将问句和回答根据类别录入问答模板,更新知识库,实现主动学习;(9)当置信度低于可信水平时,根据问句具体类别进行引导性提问,主动引导用户进行消除二义性的提问,进行新一轮更有效的问答。...

【技术特征摘要】
1.基于主动学习的问答方法,其包含以下步骤:(1)输入提问;在输入提问前根据可能的问题种类进行分类,分类录入问答模板并进行结构化存储,形成问答知识库索引,该问答知识库索引对应FAQ库;(2)预处理;对步骤(1)中输入的问句预处理,将问句进行分词、词性标注、合并疑问词组,去除表义较低的停用词,识别主题词,进行关键词扩展和同义词扩充,形成结构化的语法树;(3)特征提取;对预处理的结果进行特征提取,其本质是通过计算结构化语法树的TF-IDF值形成基于字典的特征向量;(4)问题理解;通过SVM分类器对步骤(3)提取的特征进行分类,确定问句所属类别,然后通过计算从问句提取的特征向量和知识库特征向量的修正余弦相似度作为置信度,与阈值门限进行对比,如果高于阈值则在FAQ库中检索知识,形成答案后输出;如果低于阈值则执行步骤(5);(5)如果置信度低于阈值门限,则判断置信度是否大于可信水平,当置信度大于可信水平则顺序执行步骤(6),步骤(7)和步骤(8);当置信度小于可信水平则执行步骤(9);(6)信息检索和信息处理;在Web端进行信息检索,为克服布尔逻辑式不能完整反映用户意图的缺陷,采用布尔模型对布尔理论进行改造,然后再通过相关度排序建立索引;(7)答案抽取;抽取与问句语义相关度较大的文档,通过对文档分割和过滤抽取答案,并且对答案进行整合,形成最后的回答;(8)主动学习;当步骤(7)中形成的回答是涉及实时事实的求知性提问,则直接给出结果,否则将问句和回答根据类别录入问答模板,更新知识库,实现主动学习;(9)当置信度低于可信水平时,根据问句具体类别进行引导性提问,主动引导用户进行消除二义性的提问,进行新一轮更有效的问答;所述SVM分类器构造如下:假设问答系统中话题类别种类有M类,建立M个支持向量机,识别输入的特征向量x的分类时,选择gj(x)最大的分类:fj(x)=sign(gj(x)),j∈[1,M]所述修正余弦相似度计算公式如下:

【专利技术属性】
技术研发人员:高传清杨少毅褚智威
申请(专利权)人:西安蒜泥电子科技有限责任公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1