提问应答系统的训练装置以及该训练装置用的计算机程序制造方法及图纸

技术编号:17785727 阅读:27 留言:0更新日期:2018-04-22 18:19
本发明专利技术提供一种尽可能不经由人工而高效地作成分类器的学习数据的为什么型提问应答系统的训练装置。训练装置(62)包含:提问发行部(100),将存储在提问/预想回答存储部(76)的提问发行到提问应答系统(60);回答候补过滤部(102)、回答候补判定部(104)、学习数据生成/标记部(106)以及学习数据选择部(108),根据从为什么型提问应答系统(60)与得分一起输出的多个回答候补的每一个与提问的配对,生成提问应答系统(60)的排序部(122)的学习数据并追加到学习数据存储部(64);以及反复控制部(110),对提问发行部(100)、回答候补过滤部(102)、回答候补判定部(104)、学习数据生成/标记部(106)以及学习数据选择部(108)进行控制,以便直到结束条件成立为止,反复进行学习装置的学习、提问的发行、学习数据的追加。

【技术实现步骤摘要】
【国外来华专利技术】提问应答系统的训练装置以及该训练装置用的计算机程序
本专利技术涉及提问应答系统,特别是,涉及在提问应答系统中提高针对“为什么型提问”的回答的精度的技术。
技术介绍
对人类而言,在产生某种疑问时寻找其回答是基本的活动之一。例如,针对“为什么会得癌?”这样的提问,为了找到其回答而进行了各种努力。另一方面,计算机得到发展,变得能够以高于人类的能力进行人类迄今为止所能进行的各种活动。例如,存储事物或高速检索所需要的信息的能力。可是,以往认为用计算机来检索针对上述那样的“为什么型提问”的回答是极为困难的任务。在此,所谓“为什么型提问”,是指像“为什么会得癌?”这样的提问那样追寻发生了某种现象的理由的提问,利用计算机来寻找针对其的回答称为“为什么型提问应答”。另一方面,由于计算机硬件和软件的发展,正在研究通过与人类寻找针对“为什么型提问”的回答的方法不同的方法来探索针对“为什么型提问”的回答的技术。作为
,是所谓的被称为人工智能、自然语言处理、网页挖掘、数据挖掘等的领域。关于这一点,作为提问应答系统的一个例子,有本申请的申请人在互联网上公开的提问应答服务。该提问应答系统作为其一个构成要件而安装了为什么型提问应答系统。该为什么型提问应答系统使用了后面说明的专利文献1所公开的技术。该为什么型提问应答系统预先从网页收集大量的文件,并着眼于表示因果关系的词汇等而从中取出大量的因果关系表现。在此所说的因果关系表现,是指表示原因的词组和表示结果的词组通过特定的词汇而结合那样的表现。当接受“为什么型提问”时,该系统从该大量的因果关系表现之中,将结果部分与提问句共同的因果关系表现汇集起来,并提取该表示原因的词组作为回答候补。因为可大量地得到这样的回答候补,所以在该系统中,使用用于从它们之中选择适当的回答候补作为针对提问的回答的分类器。该分类器通过使用了文本的词汇性的特征(单词串、词素串等)、构造特征(部分的文章结构树等)、意义性的特征(单词的意义、评价表现、因果关系等)的有教师的学习来进行学习。在先技术文献专利文献专利文献1:日本特开2015-011426号公报专利文献2:日本特开2013-175097号公报
技术实现思路
专利技术要解决的课题上述的以往的为什么型提问应答系统虽然使用该分类器表现出了某种程度的性能,但是仍有改善的余地。为了改善性能,认为只要使用更多的、适当的学习数据来进行分类器的学习即可。但是,以往,学习数据通过人工作成,从而作成成本高,因此难以作成大量的学习数据。进而,并不清楚选择什么样的学习数据才能高效地进行分类器的学习。因此,期望更高效地进行分类器的学习而提高分类器的性能的技术。故此,本专利技术的目的在于,提供一种尽可能不经由人工而高效地作成分类器的学习数据来进行学习的为什么型提问应答系统的训练装置。用于解决课题的技术方案本专利技术的第一局面涉及的提问应答系统的训练装置与因果关系表现存储单元、提问及预想回答存储单元、以及提问应答系统一起使用,且用于提高进行该提问应答系统内的回答候补的得分附加的分类器的性能,其中,该因果关系表现存储单元存储多个因果关系表现,该提问及预想回答存储单元存储多个从存储在因果关系表现存储单元的、相同的因果关系表现提取出的提问与针对该提问的预想回答的组,该提问应答系统当接受提问时附带得分地输出针对该提问的多个回答候补。训练装置进一步与具备用于进行提问应答系统的分类器的学习的学习数据存储单元的学习装置一起使用。该训练装置包含:学习装置控制单元,对学习装置进行控制,以便使用存储在学习数据存储单元的学习数据进行分类器的学习;提问发行单元,发行存储在提问/预想回答存储单元的提问,并提供给提问应答系统;学习数据追加单元,从针对提问发行单元所发行的提问而从提问应答系统与得分一起输出的多个回答候补的每一个与该提问的配对生成提问应答系统的分类器的学习数据,并追加到学习数据存储单元;以及反复控制单元,对学习装置控制单元、提问发行单元、以及学习数据追加单元进行控制,以便直到给定的结束条件成立为止,反复执行多次基于学习装置控制单元的学习装置的控制、基于提问发行单元的提问的发行、以及基于学习数据追加单元的学习数据的追加。优选为,学习数据追加单元包含:回答候补选择单元,在针对提问发行单元所发行的提问而从提问应答系统与得分一起输出的多个回答候补之中,选择得分的绝对值小于正的第一阈值且该得分处于上位的给定个数的回答候补;学习数据候补生成单元,算出由回答候补选择单元选择出的给定个数的回答候补的每一个与对应于提问的预想回答之间的一致度,并按照该一致度是否大于第二阈值对该回答候补和该提问附加正例或反例的标记而生成学习数据候补;以及学习数据追加单元,将由学习数据候补生成单元生成的学习数据候补作为新的学习数据而追加到学习数据存储单元。更优选为,学习数据追加单元还包含:第一回答候补废弃单元,设置在回答候补选择单元的输出与学习数据候补生成单元的输入之间,将由回答候补选择单元选择出的回答候补之中、从得到了成为该回答候补之源的提问的因果关系表现得到的回答候补废弃。进一步优选为,学习数据追加单元还包含:第二回答候补废弃单元,设置在回答候补选择单元的输出与学习数据候补生成单元的输入之间,将由回答候补选择单元选择出的回答候补与提问的配对之中、与存储在学习数据存储单元的配对一致的配对删除。学习数据追加单元也可以包含:学习数据选择单元,仅选择作为由学习数据候补生成单元生成的学习数据候补的一部分的、包含于该学习数据候补的回答候补的得分处于上位的给定个数的学习数据候补,作为新的学习数据追加到学习数据存储单元。此外,提问应答系统也可以从由多个句子构成且包含至少一个在进行因果关系表现的提取时成为线索的词组的段落的集合提取回答候补。本专利技术的第二局面涉及的计算机程序使计算机作为提问应答系统的训练装置起作用,其中,该提问应答系统的训练装置与因果关系表现存储单元、提问及预想回答存储单元、以及提问应答系统一起使用,且用于提高该提问应答系统内的基于机器学习的分类器的性能,其中,该因果关系表现存储单元存储多个因果关系表现,该提问及预想回答存储单元存储多个从存储在因果关系表现存储单元的、相同的因果关系表现提取出的提问与针对该提问的预想回答的组,该提问应答系统当接受提问时附带得分地输出针对该提问的多个回答候补。训练装置进一步与具备用于进行提问应答系统的分类器的学习的学习数据存储单元的学习装置一起使用。形成组的提问和预想回答是从相同的因果关系表现生成的提问和预想回答。计算机程序使计算机作为构成上述任一个训练装置的各单元起作用。附图说明图1是示意性地示出本专利技术的实施方式涉及的为什么型提问应答系统的训练系统的概要的图。图2是示出图1所示的为什么型提问应答系统的训练装置的概略结构的框图。图3是示出从因果关系表现作成提问与预想回答的配对的过程的示意图。图4是从由存储了大量的文件的网页文件等提取出的大量的因果关系来生成如图3所示的提问与预想回答的配对的提问/预想回答生成/提取部的框图。图5是在图4所示的提问/预想回答生成/提取部中使用的、进行执行提问的过滤处理的第二过滤部的学习的第二过滤学习部的框图。图6是示出通过计算机硬件和计算机软件的协作来实现图2所示的反复控制部110时的计本文档来自技高网
...
提问应答系统的训练装置以及该训练装置用的计算机程序

【技术保护点】
一种提问应答系统的训练装置,与因果关系表现存储单元、提问及预想回答存储单元、以及提问应答系统一起使用,且用于提高进行该提问应答系统内的回答候补的得分附加的分类器的性能,其中,所述因果关系表现存储单元存储多个因果关系表现,所述提问及预想回答存储单元存储多个从存储在所述因果关系表现存储单元的、相同的因果关系表现提取出的提问与针对该提问的预想回答的组,所述提问应答系统当接受提问时附带得分地输出针对该提问的多个回答候补,该提问应答系统的训练装置的特征在于,所述训练装置进一步与具备用于存储所述提问应答系统的所述分类器用的学习数据的学习数据存储单元的学习装置一起使用,所述训练装置包含:学习装置控制单元,对所述学习装置进行控制,以便使用存储在所述学习数据存储单元的学习数据进行所述分类器的学习;提问发行单元,发行存储在所述提问/预想回答存储单元的提问并提供给所述提问应答系统;学习数据追加单元,从针对所述提问发行单元所发行的提问而从所述提问应答系统与得分一起输出的多个回答候补的每一个与该提问的配对生成所述提问应答系统的所述分类器的学习数据,并追加到所述学习数据存储单元;以及反复控制单元,对所述学习装置控制单元、所述提问发行单元、以及所述学习数据追加单元进行控制,以便直到给定的结束条件成立为止,反复多次执行基于所述学习装置控制单元的所述学习装置的控制、基于所述提问发行单元的提问的发行、以及基于所述学习数据追加单元的所述学习数据的追加。...

【技术特征摘要】
【国外来华专利技术】2015.08.31 JP 2015-1709231.一种提问应答系统的训练装置,与因果关系表现存储单元、提问及预想回答存储单元、以及提问应答系统一起使用,且用于提高进行该提问应答系统内的回答候补的得分附加的分类器的性能,其中,所述因果关系表现存储单元存储多个因果关系表现,所述提问及预想回答存储单元存储多个从存储在所述因果关系表现存储单元的、相同的因果关系表现提取出的提问与针对该提问的预想回答的组,所述提问应答系统当接受提问时附带得分地输出针对该提问的多个回答候补,该提问应答系统的训练装置的特征在于,所述训练装置进一步与具备用于存储所述提问应答系统的所述分类器用的学习数据的学习数据存储单元的学习装置一起使用,所述训练装置包含:学习装置控制单元,对所述学习装置进行控制,以便使用存储在所述学习数据存储单元的学习数据进行所述分类器的学习;提问发行单元,发行存储在所述提问/预想回答存储单元的提问并提供给所述提问应答系统;学习数据追加单元,从针对所述提问发行单元所发行的提问而从所述提问应答系统与得分一起输出的多个回答候补的每一个与该提问的配对生成所述提问应答系统的所述分类器的学习数据,并追加到所述学习数据存储单元;以及反复控制单元,对所述学习装置控制单元、所述提问发行单元、以及所述学习数据追加单元进行控制,以便直到给定的结束条件成立为止,反复多次执行基于所述学习装置控制单元的所述学习装置的控制、基于所述提问发行单元的提问的发行、以及基于所述学习数据追加单元的所述学习数据的追加。2.根据权利要求1所述的提问应答系统的训练装置,其特征在于,所述学习数据追加单元包含:回答候补选择单元,在针对所述提问发行单元所发行的提问而从所述提问应答系统与得分一起输出的多个回答候补之中,选择所述得分的绝对值小于正的第一阈值且该得分处于上位的给定个数的回答候补;学习数据候补生成单元,算出由所述回答候补选择单元选择出的所述给定个数的回答候补的每一个与对应于所述提问的所述预想回答之间的一致度,并...

【专利技术属性】
技术研发人员:吴钟勋鸟泽健太郎桥本力饭田龙田仲正弘朱利安·克洛埃特泽
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1