当前位置: 首页 > 专利查询>山西大学专利>正文

一种阅读机器人进行自动问答的系统及其应用方法技术方案

技术编号:24574550 阅读:37 留言:0更新日期:2020-06-21 00:11
本发明专利技术公开了阅读机器人进行自动问答的方法及系统,包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块,本发明专利技术首次提出根据概括性问答题特征,然后进行线性插值的方法来分析问题类型,有效地填补了仅根据问句分析问题类型的空白;本发明专利技术可以通过抽取段落主题句和作者观点句将一些与问句关键字和框架不匹配的答案候选句召回;本发明专利技术能够实现阅读理解中问答题目的智能解答,有效提高了自动问答的答题率;本发明专利技术提出的方法也可以应用在文本蕴含、自动文摘、以及复杂问题求解等自然语言处理任务中。

An automatic question answering system for reading robot and its application

【技术实现步骤摘要】
一种阅读机器人进行自动问答的系统及其应用方法
本专利技术涉及自然语言处理领域,尤其涉及阅读机器人进行自动问答的方法及系统。
技术介绍
近年来问答技术研究受到了广泛的关注,目前发展比较成熟的问答系统有麻省理工大学人工智能实验室研发的Start、密歇根大学的AnswerBus、苹果公司研发的Siri和微软公司开发的Cotana。国内也推出一些以智能问答技术为核心的机器人,例如:微软的小冰、百度的小度等,但是基于阅读理解的问答研究还远远不足。目前,主要有基于检索模型和基于深度学习两大研究方向。基于传统的统计特征的检索方法,主要借助WordNet、同义词词林等语义词典来获取与问句相似度较高的答案句,比如周艳平,李金鹏,蔡素.基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J].计算机应用与软件,2019,36(8):65-68+81.提出一种基于同义词词林的句子语义相似度方法,通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。基于深度学习的方法,主要利用神经网络模型,对句子进行向量表示,比如DevlinJ,ChangM本文档来自技高网...

【技术保护点】
1.一种阅读机器人进行自动问答的系统,其特征在于:包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块,所述题型分析模块,用于通过获取材料和问句信息,判别是否为概括型问答题;所述词语相似度匹配模块,用于获取材料各句子与问句的词语相似度匹配数;所述段落主题句和作者观点句抽取模块,用于通过识别段落主题句和作者观点句,生成与问句相关的内容要点以及作者的观点态度;所述答案句抽取模块,根据问答题类型采取不同策略抽取候选句,对候选句进行排序,最终选取排序靠前的候选句作为答案句。/n

【技术特征摘要】
1.一种阅读机器人进行自动问答的系统,其特征在于:包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块,所述题型分析模块,用于通过获取材料和问句信息,判别是否为概括型问答题;所述词语相似度匹配模块,用于获取材料各句子与问句的词语相似度匹配数;所述段落主题句和作者观点句抽取模块,用于通过识别段落主题句和作者观点句,生成与问句相关的内容要点以及作者的观点态度;所述答案句抽取模块,根据问答题类型采取不同策略抽取候选句,对候选句进行排序,最终选取排序靠前的候选句作为答案句。


2.一种应用权利要求1所述的阅读机器人进行自动问答的系统的方法,其特征在于:包括有如下步骤:
第一步:获取阅读理解的背景材料与问句;
第二步:题型分析;
第三步:根据问题类型采取不同策略抽取候选句;
第四步:候选句排序,根据各候选句的得分高低进行排序;
第五步:输出排序的前六句作为答案句。


3.一种应用权利要求2所述的阅读机器人进行自动问答的系统的方法,其特征在于:所述第二步题型分析包括有以下步骤:
第一步:形式化处理,用于对问句和材料进行形式化处理;
第二步:通过分析材料和问句信息,判别问题类型是否是概括型问答题。


4.一种应用权利要求3所述的阅读机器人进行自动问答的系统的方法,其特征在于:所述形式化处理,具体为:将背景材料按照所属材料、段落、句子进行形式化处理,即其中di表示所属第i则材料,pj表示所属第j段落,sk表示所属第k句;对问句进行分词去停用词,得到问句关键词,即Q=<K1,K2,......,Km>,Ki表示第i个关键词。


5.一种应用权利要求4所述的阅读机器人进行自动问答的系统的方法,其特征在于:所述第二步中通过分析材料和问句信息,判别问题类型是否是概括型问答题,具体有如下几种方法:
方法一:通过问句类型,如果为抽象型问题,则符合概括型问答题的特征;
方法二:依据段落匹配数目:对问句与背景材料句子进行匹配,统计每段的匹配情况,如果匹配的段落数目超过预定的阈值,则符合概括型问答题的特征;
方法三:通过问句出处段句子数目:根据关键字匹配定位问句出处段,并统计该段的句子数目,如果超过预定的阈值,则符合概括型问答题的特征;
方法四:根据背景材料的段落和句子数目:若段落数或者句子数超过预定的阈值,则符合概括型问答题的特征;
方法五:将各个特征通过线性插值的方法进行计算,超过预定阈值,判断为概括型问答题,否则为其他类型问答题。


6.一种应用权利要求2所述的阅读机器人进行自动问答的系统的方法,其特征在于:所述第三步中根据问题类型采取不同策略抽取候选句,具体为:如果该问答题是概括型问答题,利用词语相似度匹配、段落主题句和作者观点句的方法对材料中各句子进行加权计算,计算公式为:
S=λ1*ScoresumWord+λ2*Scoretopic+λ3*Scoreopinion
其中,λk为第k个维度的权重,k∈[1,K],且0≤λk≤1,
否则,利用词语相似度匹配的方法进行计算,其计算公式为:



然后...

【专利技术属性】
技术研发人员:杨陟卓李春转张虎钱揖丽李茹
申请(专利权)人:山西大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1