非事实型询问应答系统以及计算机程序技术方案

技术编号:10605931 阅读:185 留言:0更新日期:2014-11-05 16:57
为了提供在非事实型询问应答系统中能进一步提高精度的询问应答系统,询问应答系统(160)包含:候选句检索部(222),其响应于询问而从语料库存储部(178)中取出回答候选;特征向量生成部(232),其针对询问与各个回答候选的组合来生成特征;SVM(176),其进行了学习,使得:在被给出特征向量时,对成为基础的询问以及回答候选的组合,来计算表示为正确的组合的程度的得分;以及回答句排序部(234),其将计算出的得分最高的回答候选作为回答进行输出。特征是基于针对询问的词素解析及句法解析的结果、询问当中被进行了正或负的评价的词组及其极性、以及特征内的名词的含义类而生成的。

【技术实现步骤摘要】
【国外来华专利技术】非事实型询问应答系统以及方法
本专利技术涉及询问应答系统,尤其涉及针对询问某事的理由等的所谓的how型、why型询问等被称为非事实询问的询问的应答系统。
技术介绍
与针对一些事实的询问应答(QA)相关的研究最近取得了大的进展。例如美国的竞猜节目中这种系统战胜人类的情况记忆犹新。针对与事实相关的询问,其精度据说为85%程度。即便在这样的与事实相关的询问应答系统以外的领域,同样地关于针对精度高的询问应答系统的研究,其必要性也开始被认可。然而,关于并非与事实相关的询问,例如与“为何”相关的询问,以及与“如何”相关的询问,实情是研究还未取得进展。作为这样的系统的例子,有在后述的非专利文献1中记载的系统。在该系统中,对询问和语料库内的各句进行词素解析,进而使用其结果来计算利用了从询问中所得到的单词的文档频度、各句中的单词频度、文档总数、文档的长度等的得分,并从语料库中选择得分上位的给定个数的文档。将在选择出的文档中所含的段落、以及1~3个连续的段落作为回答候选,主要通过询问中的单词与回答候选中所含的单词之间所计算的得分,来选择针对询问的回答。然而,如后述可知,在该系统中得不到足够的性能。为此,作为对该系统进一步改良后的系统,能考虑后述的非专利文献2中所记载的那样的系统。该系统例如在通过非专利文献1所记载的技术而选择了几个回答候选后,进而通过给定的得分来对各回答候选进行重新排序。以下,基于非专利文献2的记载来说明被认为是典型的实现该系统时的实现例。此外,以下将关于并非与事实相关的询问称为“非事实型询问”。参照图1,该询问应答系统30例如将在互联网上能检索的非常多的句子(在此限定为日语来考虑。)所组成的语料库存储至语料库存储部48,接受从可实现文本通信的便携式电话等的服务利用终端44发送的非事实型询问,回答处理部40从存储在语料库存储部48中的众多句子当中选择作为其回答的概率高的几个回答句,并作为回答句列表50而返回给服务利用终端44。回答处理部40在进行回答句的排序时使用支持向量机(SVM)46,由学习处理部42预先进行针对该SVM46的带监督的机器学习。学习处理部42包含:QA句存储部60,其用于预先对非事实型询问、针对该询问的正确的回答或错误的回答、表示回答是否正确的标志所组成的几个日语的QA句进行存储;学习数据生成部62,其用于针对QA句存储部60中所存储的QA句进行解析,生成预先选择出的与语法相关的统计学信息的各种组合、以及表示该QA句的回答是否为针对询问的正确回答的标志所组成的学习数据,来作为用在SVM46的学习中的特征;学习数据存储部64,其存储由学习数据生成部62生成的学习数据;以及学习处理部66,其使用学习数据存储部64中所存储的学习数据,来进行SVM46的带监督的机器学习。该学习的结果是,当SVM46接受到与由学习数据生成部62生成的学习数据为同种组合的特征时,SVM46输出表示使该特征的组合被生成的询问句以及回答候选的组合是否为正确的组合,即回答候选是否为针对询问的正确的答案这样的尺度。针对语料库存储部48中所存储的各句,预先执行与学习数据生成部62对各回答句进行过的解析处理相同的解析处理,并对各句附加为了生成赋予给SVM46的特征所需的信息。对此,回答处理部40包含:询问句解析部86,其用于响应于从服务利用终端44接受到询问句的情况,对该询问句进行预先规定的文法性解析,针对该询问句中所含的各单词,输出为了生成特征所需的信息(词类、活用形、修饰被修饰结构等);候选句检索部82,其用于响应于服务利用终端44接受到询问句的情况,从语料库存储部48之中检索并提取针对询问的给定个数(例如300个)的回答候选句;以及回答候选句存储部84,其用于将候选句检索部82所输出的给定个数的候选句与其文法信息一起存储。此外,在本实施方式中,虽然从语料库存储部48中检索并提取候选句而存储至回答候选句存储部84,但是无需如此缩减候选句。例如,可以将语料库存储部48中所存储的所有句子作为回答候选句。在此情况下,既可以是,候选句检索部82仅具有将语料库存储部48中所存储的句子全部读出的功能,也可以是,回答候选句存储部84发挥将由候选句检索部82读出的句子仅临时蓄积的功能。进而,语料库存储部48在本实施方式中虽然是询问应答系统30在本地保持,但本专利技术不限于这样的实施方式。例如语料库48还可以为远程,也不限于1个,还可以分布于多个存储装置来执行存储。回答处理部40还包含:特征向量生成部88,其用于基于从询问句解析部86输出的信息与回答候选句存储部84中所存储的各个回答候选句的组合,来生成应该赋予给SVM46的特征向量;以及回答句排序部90,其用于对于询问句与各回答候选句的组合,将从特征向量生成部88给出的特征向量赋予给SVM46,其结果是基于从SVM46输出的结果来对回答候选句存储部84中所存储的各回答句进行排序,将上位的给定个数的回答句候选作为回答句列表50进行输出。SVM46通常以数学方法来求取把对象分类为2个类(class)的超平面,基于其结果来确定输入属于哪一类,并将其结果以正/负的极性信息进行输出,这些是基本的功能,但还能输出从该超平面起到通过输入而确定的点为止的距离。该距离被认定为表征作为回答句的适合度的距离,因此回答句排序部90将该距离与SVM46所输出的极性信息的组合用作回答候选句的得分。在该询问应答系统30中,预先在QA句存储部60中存储众多询问句与作为针对该询问句的回答而适合的句子的组合、以及与作为针对询问句的回答而错误的句子的组合。对于各组合,预先手工地赋予表示该回答是否正确的标志。学习数据生成部62根据这些组合来生成用于进行SVM46的学习的学习数据,并保存至学习数据存储部64。学习处理部66使用学习数据存储部64中所存储的学习数据来进行SVM46的学习。该处理的结果是,SVM46在接受到与由学习数据生成部62生成的学习数据为相同种类的特征的组合时,能输出表示与作为获得其特征的基础的句子的组合(询问句和回答候选)的组合是否正确,即回答候选作为针对该询问句的回答是否正确的尺度的值。另一方面,在语料库存储部48中存储有由众多的句子组成的语料库。这些各句被预先执行了与学习数据生成部62所进行的处理为同种的解析处理,被赋予了与学习数据的一部分同样的用于回答候选的排序的信息。在从服务利用终端44接受到询问句时,候选句检索部82进行现有的候选句检索处理,从语料库存储部48之中提取给定个数的针对询问句的回答候选。由候选句检索部82提取出的回答候选句与用于回答候选的排序的信息一起被保存至回答候选句存储部84。另一方面,询问句解析部86对询问句进行给定的解析处理,生成为了生成特征所需的信息并赋予给特征向量生成部88。特征向量生成部88在从询问句解析部86接受到信息时,通过与回答候选句存储部84中所存储的各回答候选句的用于回答候选的排序的信息合在一起,来生成与由学习数据生成部62生成的学习数据相同的构成(其中,将表示回答候选是否为正确回答的标志除外。)的特征向量,并赋予给回答句排序部90。回答句排序部90将从特征向量生成部88给出的、根据各回答候选与询问句的组合而得到的特征向量赋予给SVM46。SVM46按所本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201380010249.html" title="非事实型询问应答系统以及计算机程序原文来自X技术">非事实型询问应答系统以及计算机程序</a>

【技术保护点】
一种非事实型询问应答系统,接受非事实型询问的输入并生成针对该询问的回答,所述非事实型询问应答系统与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储单元相连接而被使用,所述非事实型询问应答系统包含:候选检索单元,其用于响应于已接受询问的输入的情况,从所述语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输入的情况,针对该询问与存储在所述候选检索单元中的各个回答候选的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得:在被给出由所述特征生成单元生成的所述特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该回答候选是针对该询问的正确回答的程度的得分;以及回答选择单元,其针对所述询问与存储在所述回答候选中的各个回答候选的组合,基于由所述得分计算单元计算出的得分,将针对所述询问为正确回答的可能性最高的回答候选作为针对所述询问的回答进行输出,针对由所述候选检索单元检索出的各个回答候选,赋予了由所述特征生成单元生成特征所需的信息,所述特征生成单元,包含:句法解析单元,其用于针对所述询问进行词素解析以及句法解析,并输出词素信息以及语法信息;以及评价单元,其用于从所述询问当中确定遵照某评价基准而被分类为第1评价类的词组以及被分类为第2评价类的词组,针对所述第1评价类以及第2评价类各自分配了彼此相反的评价的极性,所述询问应答系统还包含:特征集合生成单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。...

【技术特征摘要】
【国外来华专利技术】2012.02.23 JP 2012-0369721.一种非事实型询问应答系统,接受非事实型询问的输入并生成针对该询问的回答,所述非事实型询问应答系统与用于对由处理对象的语言的文档亦即计算机可读取的文档组成的语料库进行存储的语料库存储单元相连接而被使用,所述非事实型询问应答系统包含:候选检索单元,其用于响应于已接受询问的输入的情况,从所述语料库存储单元之中检索并取出针对该询问的多个回答候选;特征生成单元,其用于响应于已接受询问的输入的情况,针对该询问与由所述候选检索单元取出的各个回答候选的组合,来生成给定的特征的集合;得分计算单元,其预先进行了学习,使得:在被给出由所述特征生成单元生成的所述特征的集合时,针对成为生成该特征的集合的基础的询问以及回答候选的组合,来计算表示该回答候选是针对该询问的正确回答的程度的得分;以及回答选择单元,其针对所述询问与由所述候选检索单元取出的各个回答候选的组合,基于由所述得分计算单元计算出的得分,将针对所述询问为正确回答的可能性最高的回答候选作为针对所述询问的回答进行输出,针对由所述候选检索单元检索出的各个回答候选,赋予了由所述特征生成单元生成特征所需的信息,所述特征生成单元,包含:句法解析单元,其用于针对所述询问进行词素解析以及句法解析,并输出词素信息以及语法信息;以及评价单元,其用于从所述询问当中确定遵照某评价基准而被分类为第1评价类的词组以及被分类为第2评价类的词组,针对所述第1评价类以及第2评价类各自分配了彼此相反的评价的极性,所述询问应答系统还包含:特征集合生成单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。2.根据权利要求1所述的非事实型询问应答系统,其中,所述特征生成单元还包含:含义类变换单元,其用于将包含在所述句法解析单元的输出中的各名词分类成预先准备的多个单词的含义类中的任一者,并将该名词变换成对应的含义类,所述特征集合生成单元包含:第1单元,其用于针对所述询问与各个所述回答候选的组合,基于所述句法解析单元的解析结果、由所述评价单元确定出的词组的位置及其评价类的极性、由所述含义类变换单元被进行了变换后的所述句法解析单元的输出、以及对所述回答候选所赋予的特征生成用信息,来生成所述特征的集合。3.根据权利要求2所述的非事实型询问应答系统,其中,所述第1单元基于由所述评价单元确定出的词组的位置以及评价...

【专利技术属性】
技术研发人员:吴钟勋鸟泽健太郎桥本力川田拓也史蒂恩·德萨哲风间淳一王轶讴
申请(专利权)人:独立行政法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1