学习装置、判断装置、学习方法和判断方法制造方法及图纸

技术编号:7623817 阅读:163 留言:0更新日期:2012-07-31 21:43
本发明专利技术的实施方式提供一种学习装置、判断装置、学习方法和判断方法,能够推定与应用目的一致的先行词的范围并输出。本发明专利技术的学习装置受理训练数据的输入,所述训练数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系,基于训练数据,学习用于判断在任意文章中有无照应关系的判断基准。判断装置受理用户数据的输入,所述用户数据示出文章和在所述文章内有可能具有照应关系的各要素的后方边界,基于用户数据,按照学习装置学习到的判断基准判断文章中有无照应关系。

【技术实现步骤摘要】

本专利技术的实施方式涉及。
技术介绍
所述共参照是一种在文章内构成该文章的要素(称为构成要素)组表示相同实体的语言现象。在该组中,特殊地将位于最后方的构成要素叫做照应词,将其他构成要素叫做先行词。将进行找出这种组的处理(称为共参照分析)的程序(模块)叫做共参照分析器。 作为共参照现象,按照构成要素的类别分有名词短语共参照、谓语共参照和语句共参照、或横跨构成要素类别的共参照等。以下为了简单地进行说明,作为共参照对象而找出的构成要素,设仅对名词(短语)进行处理。将以名词短语为基础的共参照分析器扩展成还能处理其他类别构成要素的器件是很容易的。共参照分析器一般进行学习处理和判断处理。在学习处理中,共参照分析器以示出由人工等预先给予了表示是共参照组的标记后的文章的数据(称为训练数据)为参考, 进行获得判断基准的处理,所述判断基准用于给予表示共参照组的标记群。另一方面,在判断处理中,共参照分析器对未带表示共参照组的标记的通常文章(文本)和在该文本内用户想知道是否处于共参照的关系(共参照关系)的多个名词短语,适用已在上述学习处理中获得的判断基准,进行判断有无共参照关系的处理。训练数据本质上具有在文章中示出名词短语群来作为成为共参照组的构成要素的标记、和示出它们是否指同一实体的标记。根据它们就能够确定哪个名词短语与哪个名词短语具有对应关系(链接)。可以说这种训练数据是用标记直接地表现了共参照现象的数据。以下示出训练数据的表现方法的一例。用〈> 括起来的范围是作为共参照组来指定的构成要素的名词短语。将〈> 叫做共参照要素标记。此外,将 括起来的数字在此叫做链接ID。在用共参照要素标记示出的名词短语群中,具有相同链接 ID的组可以解释为处于共参照关系。“〈鲍伯>出现了。〈他>是学生。”— (9900)“感受到捕捉〈海味类>等〈事物>的感性。”—(9901)“与〈摩纳哥的外交官>会面了。〈他>好像很忙。” -(9902)共参照分析器使用这样的训练数据进行学习处理,获得能够对训练数据文本尽量给予相同标记的判断基准。此外,在判断处理中,共参照分析器对未被给予标记的任意文本适用学习处理中获得的判断基准来给予标记。作为标记的实例,例如有使用 XML(Extensible Markup Language :可扩展标记语言)的方法。可是,在由这样的训练数据示出的共参照要素标记,指定了作为成为共参照组的构成要素的名词短语是什么范围,即、范围的成为前方的位置(称为前方边界)和成为后方的位置(称为后方边界)。例如,以词素为单位或者以字符为单位指定这样的位置。例如, 在上述(9900) (9902)的训练数据的例子中,关于成为先行词的名词短语,分别作为包含 I个词素、2个词素、4个词素的范围而指定了前方边界和后方边界。即,利用共参照要素标记示出判断词素串的作用上的块(称为组块(chunk))的结果,也就是应该将从哪个词素到哪个词素的串(称为词素串)作为成为共参照组的名词短语。一般将这样地进行词素串的组块判断的任务叫做组块任务。若将对成为共参照组的名词短语间的对应关系进行判断的任务叫做狭义的共参照任务,则在进行要适合于这种训练数据的学习处理时,本质上同时解决了共参照任务和组块任务(称为同时学习)。
技术实现思路
但是,现有的共参照分析器有以下两个问题。一个是,为了进行同时学习而狭义的共参照任务的性能低下,而且由于组块任务自身也很难,因此不能发挥出充分的性能,从而有可能两方面都差。此外,另一个是,在应用中要求的多是由狭义共参照任务输出的有关链接的信息,即使没有由组块任务输出的信息也行。以下,关于各个问题详细地说明。关于第一个问题,对由组块任务产生的学习处理(称为组块学习)的本质上难度和因为同时学习所导致的性能低下进行说明。组块学习的本质上难度在于语义比语法作为线索的比重大。例如,在上述(9902)的训练数据中,先行词被指定为“摩纳哥的外交官”,其实用“外交官”也不是不自然。但是,如果文章中还出现有“英国的外交官”,则“摩纳哥的外交官”作为先行词就很适合。这样地根据语义的观点进行判断,对机械来说成为难题。另外,如后所述,作为组块而有用性高的判断结果,会根据观点或应用而不同。一般这样的问题对人来说都很难判断,因此有时训练数据的制作很困难,并且品质低下。品质低的训练数据可能会成为学习的阻碍因素。因为同时学习而导致性能低下,原因在于在以上所述的组块学习自身非常困难。 倘若组块任务的判断结果十分正确,就可以在狭义的共参照任务的判断材料中使用组块任务的判断结果,因此能够期待性能的提高。现实中却可能因为组块任务的判断结果不正确而成为狭义的共参照任务的阻碍因素。关于第二个问题,以下面的文章为基础,例举共参照分析的应用例进行说明。“昨天,在青坂王子饭店中介绍的3D电视机南芝XXXXYYYYY受到了报道机关的关注。在网络公告板上也听到了期待由南芝早日发售这一时刻的积极的声音。”一(9903)可是,自动摘要应用进行从赋予的文章中仅摘录重要语句的语句提取处理。摘录的语句由于失去了上下文关系,若包含指示代词,则存在语义不明的危险。为了解决该问题,利用共参照分析置换成具体示出指示代词实体的名词短语的处理。在此,考察求得 “……在网络公告板上也听到了期待由南芝早日发售“这”一时刻……”中的用“”括起来的照应词的先行词的处理。例如,在检索片断 便携式电话的画面·TV栏等用途中执行的自动摘要应用中,很多情况下定有字符数的限制。在这种情况下,要在字符数的限制下尽量求得包含必要信息的先行词。例如,如果是10个字符以内的制约,就考虑“XXXXYYYYY”,如果是15个字符以内,就考虑“南芝XXXXYYYYY”等作为求得的先行词。此外,根据自动摘要应用,有时要求避免信息重复。在上述(9903)的文章的情况下,由于在摘录的语句中已经包含有“南芝”这个单词,因此,作为先行词,可能“3D电视机 XXXXYYYYY”比“3D电视机南芝XXXXYYYYY”更加优选。如上所述,大多时候是根据应用方法或上下文关系等而唯一地决定什么是相应的组块。即使由人制作示出准确的组块的训练数据,也很有可能因意见不同而变成产生注释噪音的结果。根据以上考察,不能说组块任务在应用上的有用性就一定高,而且可以说还有可能会引起共参照任务的性能低下。需要避免组块任务而仅解决狭义的共参照任务的学习构成。此外,该讨论是对分析零照应或联想照应等其他照应的照应分析任务也适用的讨论。分析零照应的零照应分析任务,是获取从文章表面省略了的照应词与处于文章中的先行词之间的对应的任务,关于先行词的范围的指定,存在产生与上述同样问题的危险。此外,分析联想照应的联想照应任务,是获取处于文章中的照应词与处于文章中并与照应词间接有关系的先行词之间的对应的任务,关于照应词或先行词的范围的指定,存在产生与上述同样问题的危险。实施方式的学习装置受理训练数据的输入,基于训练数据,学习用于判断在任意文章中有无照应关系的判断基准,所述训练数据示出文章、在所述文章内具有照应关系的各要素的后方边界、和成为先行词的第一要素与成为照应词的第二要素之间的对应关系。 判断装置受理用户数据的输入,基于用户数据,按照学习装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:浜田伸一郎
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术