非事实类提问应答系统以及方法技术方案

技术编号:12995672 阅读:100 留言:0更新日期:2016-03-10 05:04
提供能适当地回答非事实类提问的提问应答系统。提问应答系统(30)包括:关联文档检索部(54),其响应于接受到提问,从对象文档存储部(32)取出回答候补;回答候补提取部(56),其从回答候补中提取有力的回答候补;因果关系认识部(60),其认识包含于所提取的回答候补中的因果关系表现;因果关系相应性判定部(64),其判定认识出的因果关系作为回答是否相称;属性矢量生成部(66),其使用到因果关系相应性判定部(64)为止的处理结果,生成与提问、和检索到的回答候补的组合相关的属性矢量;和属性矢量生成部(66),其在被给予属性矢量时,对成为生成该属性矢量的基础的提问和回答候补算出表示该回答候补是针对该提问的正确的回答的程度的评分,将评分最高的回答候补作为针对提问的回答输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及利用了计算机以及网络的提问应答系统,特别涉及针对询问某件事情的理由等的所谓的为什么型提问等被称作非事实(non-factoid)类提问的提问的应答系统。
技术介绍
关于针对某些事实的提问应答(QA)的研究最近取得大的进步。当前,IBM公司的Watson、Apple公司的Siri等提问应答系统的改善特别突出,一部分已经开始商用利用。另外,这些以外的企业也在推进同样的开发。对于与事实相关的提问据说其精度为85%程度。另一方面,在不是与事实相关的提问,而是从大量的文档提取针对像「为什么会得癌症?」那样询问发生某些事态的理由的提问的回答即为什么型提问应答的情况下,则被认识为是非常困难的任务。上述的IBM公司以及Apple公司的产品也未应对为什么型提问。关于该问题,例如后述的非专利文献1公开了如下技法:在所谓的信息检索的技法中,特别在信息检索的查询中加进「理由」这样的单词,来从大量的文档中检索包含针对给出的为什么型提问的回答的一段。非专利文献2公开了如下技术:将人工制作的表征原因和结果的单词对的数据库、或表征理由的句法型式的数据库中出现的单词对以及型式用作属性,通过有指导学习来确定回答。另一方面,和这些不同,在非专利文献3中公开了如下技术:将文本的结构性特征、即局部句法树、单词的意义上的归类、评价表现等的意义上的特征用作属性,通过有指导学习来确定回答。现有技术文献非专利文献非专利文献1:MasakiMurata,SachiyoTsukawaki,ToshiyukiKanamaru,QingMa,andHitoshiIsahara.Asystemforansweringnon-factoidJapanesequestionsbyusingpassageretrievalweightedbasedontypeofanswer.InProceedingsofNTCIR-6,2007.非专利文献2:RyuichiroHigashinakaandHidekiIsozaki.Corpus-basedquestionansweringforwhy-questions.InProceedingsofIJCNLP,pages418-425.,2008.非专利文献3:Jong-HoonOh,KentaroTorisawa,ChikaraHashimoto,TakuyaKawada,StijnDeSaeger,Jun’ichiKazamaandYiouWang.WhyQuestionAnsweringusingSentimentAnalysisandWordClasses,InProceedingsofEMNLP-CoNLL2012,pp.368-378.专利技术的概要专利技术要解决的课题上述任意的现有技术虽然都有用,但在使任务的性质充分反映在所利用的属性以及其他信息中的意义上,认为依然有改善的余地。特别在使该任务的性质得到反映的手法中,更有效率地利用因果关系的重要的。因果关系是重要的这样的问题在本
得到广泛的认识,但在现有技术中,有作为因果关系仅关注名词短语间的因果关系这样的问题。并且由于认为名词短语间的因果关系原则上出现在1句中,因此仅利用在同一句内的名词短语间的因果关系。然而,实际上因果关系并非仅有名词短语间的因果关系。有时在名词短语间以及名词短语与动词短语间都存在因果关系。进而,有跨2句出现因果关系的情况,这一点在过去一直置之不理。总而言之,出现在文档数据内的因果关系的形式是多样的,在为什么型提问应答系统中,需要在认识这样的多样的形式的因果关系的基础上再将其信息用在回答提取中。然而,过去对这样的多样性一直没有关注。进而,在要基于这样的多样的形式的因果关系来得到提问的回答的情况下,有如何处置与如此的因果关系相关的信息尚不明确这样的问题。
技术实现思路
为此本专利技术的目的在于,提供能通过合适地处置出现在文档内的因果关系的多样的表现,来对非事实类提问给出合适的回答的非事实类提问应答系统。用于解决课题的手段本专利技术的第1局面所涉及的非事实类的提问应答系统是接受非事实类的提问的输入、生成针对该提问的回答的系统,与存储计算机可读的多个文档的文档存储单元连接而使用。该系统包括:候补检索单元,其响应于接受到提问的输入,从文档存储单元取出针对该提问的回答候补;属性生成单元,其响应于由候补检索单元检索到回答候补,对提问、和由候补检索单元检索到的各个回答候补的组合生成给定的属性的集合;和回答选择单元,其在被给予由属性生成单元生成的属性的集合时,对成为生成该属性的集合的基础的提问和回答候补算出表示该回答候补是针对该提问的正确的回答的程度的评分,将评分最高的回答候补作为针对提问的回答输出。属性生成单元包括:第1属性算出单元,其对提问以及各回答候补算出根据各自的词素信息(morphemeinformation)以及语法信息(syntacticinformation)求取的第1属性的组;和第2属性算出单元,其选择各回答候补中的因果关系表现中作为给出针对提问的回答相应的因果关系表现,算出从该因果关系表现得到的第2属性的组。属性的集合包含第1属性的组和第2属性的组。根据该非事实类的提问应答系统,能将回答候补中的因果关系表现作为给出针对提问的回答的因果关系表现是否相应用作第2组的属性。通过在选择回答候补的基础上对该因果关系表现进行考虑,能使提问的表现和因果关系的表现的含意关系反映在回答的选择中。其结果,能提供通过合适地处置出现在文档内中的因果关系的多样的表现来对非事实类提问给出合适的回答的非事实类提问应答系统。优选地,候补检索单元包括:分类单元,其响应于接受到提问的输入,将该提问分类为给定的多个类型的任意者;句分割单元,其响应于接受到提问的输入,将存储于文档存储单元的各文档分割为由连续的1个或多个句构成的句的组,并输出;和对由句分割单元输出的各句的组根据遵循分类单元的分类结果确定的基准来算出评分、将该评分上位的句的组作为回答候补而输出的单元。更优选地,第2属性算出单元包括:线索表现确定单元,其在各回答候补中确定成为用于因果关系表现的确定的线索的表现;因果关系表现确定单元,其确定通过在各回答候补中线索表现确定单元所确定的线索表现连接起来的由因果关系的原因部分和结果部分给出的因果关系表现;一致判定单元,其判定包含于确定的因果关系表现的结果部分中的名词本文档来自技高网
...

【技术保护点】
一种非事实类的提问应答系统,接受非事实类的提问的输入,生成针对该提问的回答,与存储计算机可读的多个文档的文档存储单元连接而使用,候补检索单元,其响应于接受到提问的输入,从所述文档存储单元取出针对该提问的回答候补;属性生成单元,其响应于由所述候补检索单元检索到回答候补,对所述提问、和由所述候补检索单元检索到的各个回答候补的组合生成给定的属性的集合;和回答选择单元,其在被给予由所述属性生成单元生成的所述属性的集合时,对成为生成该属性的集合的基础的提问和回答候补算出表示该回答候补是针对该提问的正确的回答的程度的评分,将评分最高的回答候补作为针对所述提问的回答输出,所述属性生成单元包括:第1属性算出单元,其对所述提问以及各回答候补算出根据各自的词素信息以及语法信息求得的第1属性的组;和第2属性算出单元,其选择各所述回答候补中的因果关系表现中作为给出针对所述提问的回答相应的因果关系表现,算出从该因果关系表现得到的第2属性的组,所述属性的集合包含所述第1属性的组和所述第2属性的组。

【技术特征摘要】
【国外来华专利技术】2013.06.27 JP 2013-1346491.一种非事实类的提问应答系统,接受非事实类的提问的输入,生
成针对该提问的回答,与存储计算机可读的多个文档的文档存储单元连接
而使用,
候补检索单元,其响应于接受到提问的输入,从所述文档存储单元取
出针对该提问的回答候补;
属性生成单元,其响应于由所述候补检索单元检索到回答候补,对所
述提问、和由所述候补检索单元检索到的各个回答候补的组合生成给定的
属性的集合;和
回答选择单元,其在被给予由所述属性生成单元生成的所述属性的集
合时,对成为生成该属性的集合的基础的提问和回答候补算出表示该回答
候补是针对该提问的正确的回答的程度的评分,将评分最高的回答候补作
为针对所述提问的回答输出,
所述属性生成单元包括:
第1属性算出单元,其对所述提问以及各回答候补算出根据各自的词
素信息以及语法信息求得的第1属性的组;和
第2属性算出单元,其选择各所述回答候补中的因果关系表现中作为
给出针对所述提问的回答相应的因果关系表现,算出从该因果关系表现得
到的第2属性的组,
所述属性的集合包含所述第1属性的组和所述第2属性的组。
2.根据权利要求1所述的非事实类的提问应答系统,其中,
所述候补检索单元包括:
分类单元,其响应于接受到所述提问的输入,将该提问分类为给定的
多个类型的任意者;
句分割单元,其响应于接受到所述提问的输入,将存储于所述文档存
储单元的各文档分割为由连续的1个或多个句构成的句的组,并输出;和
对由所述句分割单元输出的各句的组,根据遵循所述分类单元的分类
结果确定的基准来算出评分、将该评分上位的句的组作为所述回答候补而
输出的单元。
3.根据权利要求1或2所述的非事实类的提问应答系统,其中,
所述第2属性算出单元包括:
线索表现确定单元,其在各所述回答候补中确定成为用于因果关系表
现的确定的线索的表现;
因果关系表现确定单元,其确定:通过在各所述回答候补中由所述线
索表现确定单元所确定的线索表现联系起来的、由因果关系的原因部分和
结果部分给出的因果关系表现;
一致判定单元,其判定包含于所述确定的因果关系表现的结果部分中
的名词和修饰该名词的谓语的极性的组合、以及包含于所述提问中的名词
和修饰该名词的谓语...

【专利技术属性】
技术研发人员:吴钟勋鸟泽健太郎桥本力佐野大树史蒂恩·德萨哲大竹清敬
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1