一种面向特定领域的问题解答方法技术

技术编号：15639679 阅读：69 留言：0更新日期：2017-06-16 01:05

一种面向特定领域的问题解答方法，本发明专利技术涉及面向特定领域的问题解答方法。本发明专利技术的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确，对特定领域的专有名称识别不准的问题。具体过程为：一、构建特定领域词表，利用词表对输入问题进行分词；二、对分词后的输入问题进行问题分析，识别问题类型及问题成分；三、对问题成分进行语义及字符串层面的扩展，得到答案候选词；四、在知识库中进行答案候选词‑属性检索，得到答案候选段落；五、从答案候选段落筛选候选答案句。本发明专利技术用于特定领域的问题解答领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向特定领域的问题解答方法
本专利技术涉及面向特定领域的问题解答方法。
技术介绍
问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。对于当代的我们来说，时间是极为宝贵的，因而构建特定领域的问答系统是有意义的。目前没有很多关于特定领域问答系统构建的相关资料，但是有基于结构化数据的问答系统的相关资料，基于结构化数据的问答系统的主要思想是通过分析问题,把问题转化为一个查询(query),然后在结构化数据中进行查询,返回的查询结果即为问题的答案。主要数据处理流程如下：(1)根据问题特点来分析问题,产生一个结构数据的查询语言格式的查询(对应于问答系统的问题分析部分)。(2)将产生的查询提交给管理结构数据的系统(如数据库等),系统根据查询的限制条件筛选数据(对应于问答系统的信息检索部分,即缩小答案可能存在的范围)。(3)把匹配的数据作为答案返回给用户。针对特定领域的问答难点如下：一.难以精准分词，经常容易把相关事件、专业名词等在分词时分隔开；二.难以识别问句中关键词与属性，即难以识别问题的真正意图，例如：阅读材料三，结合材料，分析“鲁迅对话雨果”交流活动的文化意义；三.难以对于问句中所识别出的关键词进行扩展；四.难以将关键词与属性与知识库中所存条目进行准确对应。现有技术对人名、地名、机构名等实体识别较为准确，对特定领域的专有名称识别不准。特定领域为历史、医疗、化学等领域。
技术实现思路
本专利技术的目的是为了解决现有技术对人名、地名、机构名等实体识别较为准确，对特定领域...
一种面向特定领域的问题解答方法

【技术保护点】
一种面向特定领域的问题解答方法，其特征在于：一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表，利用词表对输入问题进行分词；步骤二、对分词后的输入问题进行问题分析，识别问题类型及问题成分；步骤三、对问题成分进行语义及字符串层面的扩展，得到答案候选词；步骤四、在知识库中进行答案候选词‑属性检索，得到答案候选段落；步骤五、从答案候选段落筛选候选答案句。

【技术特征摘要】
1.一种面向特定领域的问题解答方法，其特征在于：一种面向特定领域的问题解答方法具体过程为:步骤一、构建特定领域词表，利用词表对输入问题进行分词；步骤二、对分词后的输入问题进行问题分析，识别问题类型及问题成分；步骤三、对问题成分进行语义及字符串层面的扩展，得到答案候选词；步骤四、在知识库中进行答案候选词-属性检索，得到答案候选段落；步骤五、从答案候选段落筛选候选答案句。2.根据权利要求1所述一种面向特定领域的问题解答方法，其特征在于：所述步骤一中构建特定领域词表，利用词表对输入问题进行分词；具体过程为：首先爬取特定领域百度百科标题，经过去重操作得到初始特定领域词典，采用初始特定领域词典对特定领域资料进行分词，得到一个初始分词结果，再利用初始分词结果训练特定领域的分词器；将特定领域资料利用特定领域的分词器进行分词，然后提取每个未登录词语的词频，将词频大于特定阈值并且在初始特定领域词典中不存在的未登录词提取出来作为候选词；特定阈值为人为设定；将词频小于等于特定阈值时，不作为候选词；在得到候选词集合后，使用候选词邻接熵与候选词互信息两种特征对候选词按邻接熵与互信息的线性和从高到低进行排序；候选词邻接熵的计算方式如下：式中，E为左或右熵；p(ω)为ω出现的概率；ω为左或右邻接词集合；C为左或右邻接词集合；候选词互信息是指候选词内部凝聚力；式中，MI为互信息；p(ω1)为ω1出现的概率；p(ω2)为ω2出现的概率；p(ω1,ω2)为ω1,ω2在给定语料中的联合概率分布；ω1为字符或字符串；ω2为字符或字符串；ω1ω2连在一起为一个候选词；使用线性加和将两个特征结合起来；线性加和为将候选词邻接熵的权重与候选词互信息的权重进行加和，加和后的值为1；取排序后的候选词集合中的前N个与初始特定领域词典相结合即为构建特定领域词表；N为正整数。3.根据权利要求2所述一种面向特定领域的问题解答方法，其特征在于：所述步骤二中对分词后的输入问题进行问题分析，识别问题类型及问题成分；具体过程为：问题分析包括问题分类和问题成分标注；问题分类的分类体系依据参考教辅中给出的答题模式；使用基于规则的、基于SVM、基于CNN、基于LSTM的方法得到问题分类结果，对问题分类结果进行综合判断；具体过程为：①基于规则的方法是利用正则表达式对输入问题进行匹配，得到问题分类结果；②SVM的方法是利用文本分类，通过开方检验对输入问题每类提取出前100个词作为对分类有帮助的词，通过SVM模型，得到问题分类结果；③CNN的方法是使用一个四层的CNN网络，一个四层的CNN网络包括一个输入层，一个卷积层，一个pooling层和一个全连接的输出分类层，通过把一个长度为n的句子表示成n*k的矩阵，其中k为词向量的维度，n为词的个数，取值为正整数；k取值为正整数；卷积层使用一个h*k维的卷积核，其中h为所卷积的词的窗口的大小，h取值为正整数；pooling层使用pooling最大值，一个全连接的输出分类层使用一个全连接softmax层来进行预测，得到问题分类结果；④基于...

【专利技术属性】
技术研发人员：郑德权，杨沐昀，朱聪慧，俞可，李依尘，赵铁军，徐冰，曹海龙，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人