一种面向特定领域的问题解答方法技术

技术编号:15639679 阅读:69 留言:0更新日期:2017-06-16 01:05
一种面向特定领域的问题解答方法,本发明专利技术涉及面向特定领域的问题解答方法。本发明专利技术的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确,对特定领域的专有名称识别不准的问题。具体过程为:一、构建特定领域词表,利用词表对输入问题进行分词;二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;四、在知识库中进行答案候选词‑属性检索,得到答案候选段落;五、从答案候选段落筛选候选答案句。本发明专利技术用于特定领域的问题解答领域。

【技术实现步骤摘要】
一种面向特定领域的问题解答方法
本专利技术涉及面向特定领域的问题解答方法。
技术介绍
问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。对于当代的我们来说,时间是极为宝贵的,因而构建特定领域的问答系统是有意义的。目前没有很多关于特定领域问答系统构建的相关资料,但是有基于结构化数据的问答系统的相关资料,基于结构化数据的问答系统的主要思想是通过分析问题,把问题转化为一个查询(query),然后在结构化数据中进行查询,返回的查询结果即为问题的答案。主要数据处理流程如下:(1)根据问题特点来分析问题,产生一个结构数据的查询语言格式的查询(对应于问答系统的问题分析部分)。(2)将产生的查询提交给管理结构数据的系统(如数据库等),系统根据查询的限制条件筛选数据(对应于问答系统的信息检索部分,即缩小答案可能存在的范围)。(3)把匹配的数据作为答案返回给用户。针对特定领域的问答难点如下:一.难以精准分词,经常容易把相关事件、专业名词等在分词时分隔开;二.难以识别问句中关键词与属性,即难以识别问题的真正意图,例如:阅读材料三,结合材料,分析“鲁迅对话雨果”交流活动的文化意义;三.难以对于问句中所识别出的关键词进行扩展;四.难以将关键词与属性与知识库中所存条目进行准确对应。现有技术对人名、地名、机构名等实体识别较为准确,对特定领域的专有名称识别不准。特定领域为历史、医疗、化学等领域。
技术实现思路
本专利技术的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确,对特定领域的专有名称识别不准的问题,而提出一种面向特定领域的问题解答方法。一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表,利用词表对输入问题进行分词;步骤二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;步骤三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;步骤四、在知识库中进行答案候选词-属性检索,得到答案候选段落;步骤五、从答案候选段落筛选候选答案句。本专利技术的有益效果为:本专利技术的一种面向特定领域的复杂问题解答方法针对特定领域的复杂问题,特定领域为历史、医疗、化学等领域。通过构建特定领域词表、对问句进行问题分析、对关键词进行语义及字符串层面的扩展、在知识库中进行检索、从候选段落筛选候选答案句这5个流程进行解答。该专利方法能回答面向特定领域的复杂问题,和传统的事实性问答系统相比较更加有实用意义。本专利技术涉及机器人人机交互方法,本专利技术设计了一套针对特定领域的复杂问题的解答流程,而不是针对简单类型问题的问答。利用多种模型投票确定问题类型,识别问题成分,提出了一种基于知识库的答案候选词-属性检索方法。图3为历史学科问答系统初始界面示意图;图4为输入问题概括分封制的内容示意图;图5为输入问题概括分封制的内容后点击查询的结果示意图;结合图3、图4、图5可得出将本专利技术应用于历史领域时,在高中历史课本的课后题上测试,准确率可以达到68%。附图说明图1为CNN分类器示意图;图2为LSTM模型示意图;图3为历史学科问答系统初始界面截图;图4为输入问题概括分封制的内容截图;图5为输入问题概括分封制的内容后点击查询的结果截图;图6为本专利技术问答流程图。具体实施方式具体实施方式一:本实施方式的一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表,利用词表对输入问题进行分词;步骤二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;步骤三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;步骤四、在知识库中进行答案候选词-属性检索,得到答案候选段落;步骤五、从答案候选段落筛选候选答案句。具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中构建特定领域词表,利用词表对输入问题进行分词;具体过程为:首先爬取特定领域百度百科标题,经过去重操作得到初始特定领域词典,采用初始特定领域词典对特定领域资料进行分词,得到一个初始分词结果,再利用初始分词结果训练特定领域的分词器(通过CRF++工具将标注后的初始分词结果输入,得到特定领域的分词器)。将特定领域资料利用特定领域的分词器进行分词,然后提取每个未登录词语的词频(词语在特定领域资料中出现的次数),将词频大于特定阈值并且在初始特定领域词典中不存在的未登录词提取出来作为候选词;特定阈值为人为设定;将词频小于等于特定阈值时,不作为候选词;在得到候选词集合后,使用候选词邻接熵与候选词互信息两种特征对候选词按邻接熵与互信息的线性和从高到低进行排序;邻接熵是衡量词语周围出现其他词语丰富程度的特征。通常对于候选词来说,周围出现的词语越丰富,那么成词置信度也就越高。相反,如果候选词周围仅仅出现一些特定的词语,那么它很大的可能是因为一些错误的切分所产生的。候选词邻接熵的计算方式如下:式中,E为左或右熵;p(ω)为ω出现的概率;ω为左或右邻接词集合;C为左或右邻接词集合;候选词互信息是指候选词内部凝聚力,候选词内部凝聚度越高,那么它成为词语概率也就越大;片段的内部信息定义为:片段的概率/(子序列概率的积),如果将其取个对数,就得到了互信息:式中,MI为互信息;p(ω1)为ω1出现的概率;p(ω2)为ω2出现的概率;p(ω1,ω2)为ω1,ω2在给定语料中的联合概率分布;ω1为字符或字符串;ω2为字符或字符串;ω1ω2连在一起为一个候选词;比如电影院可以是“电影院”也可以是“电影院”,ω1、ω2就是电影院的分割;互信息与邻接熵两个特征相辅相成,前者反应词语内部的凝聚程度,后者反应词语外部上下文的丰富程序。最终使用线性加和(候选词邻接熵的权重与候选词互信息的权重加和为1)将两个特征结合起来。取排序后的候选词集合中的前N个(按邻接熵与互信息的线性和从高到低的前N个)与初始特定领域词典相结合即为构建特定领域词表;N为正整数;其它步骤及参数与具体实施方式一相同。具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中对分词后的输入问题进行问题分析,识别问题类型及问题成分;具体过程为:问题分析包括问题分类和问题成分标注;问题分类既可以指导答案候选段落检索,如比较型需要建立多个查询,又可以对最终的答案生成起到辅助作用。问题分类的分类体系依据参考教辅中给出的答题模式;很明显的一点是,中国的高考有一些固定的公式,因此根据参考资料中的答题方法进行分类可以从某种意义上提高最终的得分。有些类可以分成小类,比如比较型问题,可以分成比较相同点、不同点、异同点,但是只要知道了是比较型就可以用关键词匹配非常准确地确定具体的某个小类,因此只使用了一级分类而没有采用多级分类。问题分类看做是一个句子分类问题,使用基于规则的、基于SVM、基于CNN、基于LSTM的方法得到问题分类结果,对问题分类结果进行综合判断;具体过程为:①基于规则的方法是利用正则表达式对输入问题进行匹配,得到问题分类结果;如因果类问题有提示词“原因”、“后果等”,最终得到的规则比较多而且遇到有些问题就无法匹配或者匹配多个。②基于SVM的方法,利用文本分类的思路,通过开方检验对输入问题每类提取出前100词作为对分类有帮助的词,通过SVM模型,得到问题本文档来自技高网...
一种面向特定领域的问题解答方法

【技术保护点】
一种面向特定领域的问题解答方法,其特征在于:一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表,利用词表对输入问题进行分词;步骤二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;步骤三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;步骤四、在知识库中进行答案候选词‑属性检索,得到答案候选段落;步骤五、从答案候选段落筛选候选答案句。

【技术特征摘要】
1.一种面向特定领域的问题解答方法,其特征在于:一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表,利用词表对输入问题进行分词;步骤二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;步骤三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;步骤四、在知识库中进行答案候选词-属性检索,得到答案候选段落;步骤五、从答案候选段落筛选候选答案句。2.根据权利要求1所述一种面向特定领域的问题解答方法,其特征在于:所述步骤一中构建特定领域词表,利用词表对输入问题进行分词;具体过程为:首先爬取特定领域百度百科标题,经过去重操作得到初始特定领域词典,采用初始特定领域词典对特定领域资料进行分词,得到一个初始分词结果,再利用初始分词结果训练特定领域的分词器;将特定领域资料利用特定领域的分词器进行分词,然后提取每个未登录词语的词频,将词频大于特定阈值并且在初始特定领域词典中不存在的未登录词提取出来作为候选词;特定阈值为人为设定;将词频小于等于特定阈值时,不作为候选词;在得到候选词集合后,使用候选词邻接熵与候选词互信息两种特征对候选词按邻接熵与互信息的线性和从高到低进行排序;候选词邻接熵的计算方式如下:式中,E为左或右熵;p(ω)为ω出现的概率;ω为左或右邻接词集合;C为左或右邻接词集合;候选词互信息是指候选词内部凝聚力;式中,MI为互信息;p(ω1)为ω1出现的概率;p(ω2)为ω2出现的概率;p(ω1,ω2)为ω1,ω2在给定语料中的联合概率分布;ω1为字符或字符串;ω2为字符或字符串;ω1ω2连在一起为一个候选词;使用线性加和将两个特征结合起来;线性加和为将候选词邻接熵的权重与候选词互信息的权重进行加和,加和后的值为1;取排序后的候选词集合中的前N个与初始特定领域词典相结合即为构建特定领域词表;N为正整数。3.根据权利要求2所述一种面向特定领域的问题解答方法,其特征在于:所述步骤二中对分词后的输入问题进行问题分析,识别问题类型及问题成分;具体过程为:问题分析包括问题分类和问题成分标注;问题分类的分类体系依据参考教辅中给出的答题模式;使用基于规则的、基于SVM、基于CNN、基于LSTM的方法得到问题分类结果,对问题分类结果进行综合判断;具体过程为:①基于规则的方法是利用正则表达式对输入问题进行匹配,得到问题分类结果;②SVM的方法是利用文本分类,通过开方检验对输入问题每类提取出前100个词作为对分类有帮助的词,通过SVM模型,得到问题分类结果;③CNN的方法是使用一个四层的CNN网络,一个四层的CNN网络包括一个输入层,一个卷积层,一个pooling层和一个全连接的输出分类层,通过把一个长度为n的句子表示成n*k的矩阵,其中k为词向量的维度,n为词的个数,取值为正整数;k取值为正整数;卷积层使用一个h*k维的卷积核,其中h为所卷积的词的窗口的大小,h取值为正整数;pooling层使用pooling最大值,一个全连接的输出分类层使用一个全连接softmax层来进行预测,得到问题分类结果;④基于...

【专利技术属性】
技术研发人员:郑德权杨沐昀朱聪慧俞可李依尘赵铁军徐冰曹海龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1