注解辅助装置及用于其的计算机程序制造方法及图纸

技术编号:16308057 阅读:35 留言:0更新日期:2017-09-27 01:58
提供一种能够容易且低成本地构筑对文本的注解的注解辅助装置。注解数据生成辅助系统(160)包括:输入输出装置(202),通过对话型处理来接受输入;词素解析系统(380)以及依存关系解析系统(382),对文本档案(192)的文本数据进行词素解析以及依存解析;第1~第4候补生成部(388、390、392以及394),在词素串中的谓语的依存关系中检测省略或者指示语,确定注解处理的对象位置,使用语言知识来推定所插入的表现的候补;候补DB(386),存储所推定出的候补;和对话型注解装置(396),从候补DB(386)读出注解处理的候补,将通过输入输出装置(202)的对话型处理而选择出的候补附加为注解。

Annotation auxiliary device and computer program for the same

An annotation aid that provides easy and low local construction of text annotations. Note the data generation auxiliary system (160) includes an input output device (202), through dialogue to accept input; morpheme analysis system (380) and the dependency relation analysis system (382), the text file (192) parses the text data and morpheme dependency parsing; first ~ fourth candidate generation unit (388 390, 392, and 394), the morpheme string in the predicate dependency relation in the detection of omitted or deixis, determine the annotation processing position of the object, using the language knowledge to the presumption of insert performance candidates; alternate DB (386), storing the inferred candidates; and dialogue annotation device (396) from DB (386), alternate reading annotation processing waiting through the input and output device (202) the dialogue processing and choose the candidate for additional comments.

【技术实现步骤摘要】
【国外来华专利技术】注解辅助装置及用于其的计算机程序
本专利技术涉及自然语言处理技术,尤其是涉及用于对文本有效地进行针对自然语言的语句中频繁出现的省略、代词等指示语的照应关系的注解的注解辅助装置。
技术介绍
在自然语言的文本中,频繁出现省略以及指示语。例如考虑图1所示的例句30。例句30包括第一句和第二句。在第二句中包含「其」这一指示语(代词)42。在该情况下,「其」这一指示语指代第一句的「农历新年的日期」这一表现40。将如此确定指示语所指代的词语的处理称为「照应解析」。另一方面,考虑图2的例句60。该例句60包括第一句和第二句。在第二句中,省略了「搭载自诊断功能」这一谓语部分的主语,在该主语的省略位置76,省略了第一句的「新型交换机」这一单词72。同样地,省略了「预定设置200系统。」这一谓语部分的主语。在该主语的省略位置74,省略了第一句的「N公司」这一单词70。将如此检测主语等的省略并且对其进行补足的处理称为「省略解析」。以后,将照应解析和省略解析一起称为「照应/省略解析」。在所谓的人工智能中,为了取得与人的交流,自然语言处理是不可缺少的技术。作为自然语言处理的重要的问题,存在自动翻译以及问题解答等。照应/省略解析的技术,在这种自动翻译以及问题解答中是必不可少的技术。但是,现状的照应/省略解析的技术水平,虽然也根据语言而不同,但是还未达到实用级别。如此,照应/省略解析的性能不能提高的理由,可以考虑各种理由。作为主要的理由,可以列举在这种解析中需要一般常识。为了考虑一般常识,需要考虑与照应/解析相关的人的判断。但是,考虑了这样的要素的解析算法比较困难。归根到底,需要准备大量人的判断作为学习数据,生成通过统计学习来进行照应/省略解析的解析器。但是,已知用于生成这样的解析器构筑用的学习数据的成本是非常大的。因此,由于不能生成足够量的学习数据,所以难以实现照应/省略解析的性能的提高。为了提高自然语言处理的性能,进而使人工智能更智能,需要解决与照应/省略解析相关的这样的问题。作为生成照应/省略解析器的学习数据的技术,存在后述的非专利文献1所记载的技术。在该技术中,如以下那样进行学习数据的生成。即,进行如下作业:人从开头开始阅读文本,人工检测代词以及省略等。作为机械的支援,例如是预先列举照应关系的指代目标的表现的程度。另一方面,在后述的非专利文献2中,公开了自动地按一定的步骤进行照应/省略解析的照应/省略解析算法。该文献所公开的技术,利用词素解析、语法/依存解析(以下简称为「依存解析」)等所输出的信息、和词典等外部资源工具。这里所利用的词典,是汇集了如下特性的词典,即,例如「吃」这一动词的宾语中包括相当于「食物」的表现。在非专利文献2所公开的技术中,除此之外,还参考从文本中得到的信息来进行代词的指代目标以及省略的补足。在先技术文献非专利文献非专利文献1:饭田龙、小町守、井之上直也、乾健太郎、松本裕治、谓语构造和照应关系的注解:NAIST从文本语料库构筑的经验到自然语言处理(述語構造と照応関係のアノテ一シヨン:NAISTテキストコ一パス構築の経験から、自然言語処理),Vol.17,No.2,pp.25-50,2010.非专利文献2:RyuIida,MassimoPoesio.ACross-LinguallLPSolutiontoZeroAnaphoraResolution.The49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(ACL-HLT2011),pp.804-813.2011.
技术实现思路
专利技术要解决的课题但是,根据前述的非专利文献2,报告了如下数字:在日语的照应解析的情况下,再现率为44%、精度为42%,在主语的省略解析的情况下,再现率以及精度都是35%。在日常生活中所见的文档中,频繁使用省略以及代词等。为了进行准确的资源语言处理,必须准确地进行省略位置的检测、省略位置以及代词的指示目标的检测。为此,需要得到精度较高的照应/省略解析器。但是,如前所述,为了进行那样的照应/省略解析器的学习,存在如下问题:生成学习数据花费工夫,成本太高。学习数据,通过对文本进行针对语句中出现的省略、代词等指示语的照应关系的注解来生成。当然,因为必须提高注解的精度本身,所以必须使学习数据反映人的判断。即,设注解本身由人来进行,在解决上述课题方面,期望得到能够高效地进行那样的人的注解作业那样的系统。因此,本专利技术的目的在于提供一种注解辅助装置,人能够容易地构筑对文本的注解数据,由此降低成本。用于解决课题的手段本专利技术的第1方面所涉及的注解辅助装置,对用于自然语言的文本的照应/省略解析的注解数据的生成进行辅助。该注解辅助装置包括:输入输出单元,其包括显示装置和输入装置,通过与用户的对话型处理来受理用户输入;读出单元,其从成为注解对象的文本档案中读出文本数据;解析单元,其进行读出单元读出的文本数据的词素解析以及依存解析,输出附加了表示依存构造的信息的词素串;谓语检索单元,其检索解析单元输出的词素串中的谓语;对象确定单元,其用于检测在谓语检索单元检索出的各个谓语参与的依存关系中针对该谓语省略了应处于规定关系的单词的情况或者成为指示语的情况,并作为注解处理的对象,确定该单词的位置;候补推定单元,其针对对象确定单元所确定的各个单词的位置,使用该位置与周围词素串的关系以及预先准备的语言知识,来推定应插入到该位置的表现的候补;候补存储单元,其将由候补推定单元推定出的候补与单词的位置建立关联地进行存储;候补显示单元,其针对注解处理的各个对象,从候补存储单元读出候补推定单元推定出的候补,在显示装置显示为用户能够选择任一个;和对话式选择单元,其响应对由候补显示单元所显示的任一个候补进行选择的用户的指示,将所选择的候补作为注解而附加到位置。优选为,候补推定单元包括:疑问句生成单元,其针对对象确定单元所确定的各个单词的位置,使用该位置的周围的单词串来生成用于询问应加入到该单词的位置的单词的句子;疑问句输入单元,其将疑问句生成单元所生成的疑问句作为输入提供给预先准备的问题解答系统;和根据针对从疑问句输入单元提供的疑问句而从问题解答系统获得的回答,使应插入到单词的位置的单词的候补与该单词的位置建立关联地存储到候补存储单元中的单元。更优选为,候补推定单元还包括:语言知识存储单元,其存储多个语言知识规则;匹配表现提取单元,其针对对象确定单元所确定的各个单词的位置,确定与语言知识存储单元中所存储的任一语言知识匹配、并且包括该单词的位置和确定该单词的位置时使用的谓语的表现;和通过对由匹配表现提取单元所提取出的表现和该表现匹配的语言知识规则进行比对,从而将表现中的应插入到对象确定单元所确定的单词的位置的表现作为应插入到该单词的位置的字符串的候补而存储到候补存储单元中的单元。进而优选为,候补推定单元还包括:注解检索单元,其在预先准备的既存的已注解文本数据库中包含的文本中,检索附加了与省略或者照应关系相关的注解的位置;和针对由注解检索单元所检索出的各个位置,依据按照各注解而预先决定的方式使句子变形,将该变形位置作为对所检索出的位置的注解的候补而存储到候补存储本文档来自技高网
...
注解辅助装置及用于其的计算机程序

【技术保护点】
一种注解辅助装置,对用于自然语言句子的照应/省略解析的注解数据的生成进行辅助,所述注解辅助装置包括:输入输出单元,其包括显示装置和输入装置,通过与用户的对话型处理来受理用户输入;读出单元,其从成为注解对象的文本档案中读出文本数据;解析单元,其进行所述读出单元读出的文本数据的词素解析以及依存解析,输出附加了表示依存构造的信息的词素串;谓语检索单元,其检索所述解析单元输出的词素串中的谓语;对象确定单元,其用于检测在所述谓语检索单元检索出的各个谓语参与的依存关系中针对该谓语省略了应处于规定关系的单词的情况或者成为指示语的情况,并作为注解处理的对象,确定该单词的位置;候补推定单元,其针对所述对象确定单元所确定的各个所述单词的位置,使用该位置与周围词素串的关系以及语言知识,来推定应插入到该位置的表现的候补;候补存储单元,其将由所述候补推定单元推定出的候补与所述单词的位置建立关联地进行存储;候补显示单元,其针对所述注解处理的各个对象,从所述候补存储单元读出所述候补推定单元推定出的候补,在所述显示装置显示为用户能够选择任意一个;和对话式选择单元,其响应对由所述候补显示单元显示的任一个候补进行选择的用户的指示,将所选择的候补作为注解而附加到所述位置。...

【技术特征摘要】
【国外来华专利技术】2015.01.23 JP 2015-0114911.一种注解辅助装置,对用于自然语言句子的照应/省略解析的注解数据的生成进行辅助,所述注解辅助装置包括:输入输出单元,其包括显示装置和输入装置,通过与用户的对话型处理来受理用户输入;读出单元,其从成为注解对象的文本档案中读出文本数据;解析单元,其进行所述读出单元读出的文本数据的词素解析以及依存解析,输出附加了表示依存构造的信息的词素串;谓语检索单元,其检索所述解析单元输出的词素串中的谓语;对象确定单元,其用于检测在所述谓语检索单元检索出的各个谓语参与的依存关系中针对该谓语省略了应处于规定关系的单词的情况或者成为指示语的情况,并作为注解处理的对象,确定该单词的位置;候补推定单元,其针对所述对象确定单元所确定的各个所述单词的位置,使用该位置与周围词素串的关系以及语言知识,来推定应插入到该位置的表现的候补;候补存储单元,其将由所述候补推定单元推定出的候补与所述单词的位置建立关联地进行存储;候补显示单元,其针对所述注解处理的各个对象,从所述候补存储单元读出所述候补推定单元推定出的候补,在所述显示装置显示为用户能够选择任意一个;和对话式选择单元,其响应对由所述候补显示单元显示的任一个候补进行选择的用户的指示,将所选择的候补作为注解而附加到所述位置。2.根据权利要求1所述的注解辅助装置,其中,所述候补推定单元包括:疑问句生成单元,其针对所述对象确定单元所确定的各个所述单词的位置,使用该位置的周围的单词串来生成用于询问应插入到该单词的位置的单词的句子;疑问句输入单元,其将所述疑问句生成单元所生成的疑问句作为输入提供给预先准备的问题解答系统;和根据针对从所述疑问句输入单元提供的疑问句而从所述问题解答系统获得的回答,使应插入到所述单词的位置的单词的候补与该单词的位置建立关联地存储到所述候补存储单元中的单元。3.根据权利要求2所述的注解辅助装置,其中,所述候补推定单元还包括:语言知识存储单元,其存储多个语言知识规则;匹配表现提取单元,其针对所述对象确定单元所确定的各个所述单词的位置,确定与所述语言知识存储单元中所存储的任一语言知识匹配、并且包括该单词的位置和确定该单词的位置时使用的所述谓语的表现;和通过对由所述匹配表现提取单...

【专利技术属性】
技术研发人员:饭田龙鸟泽健太郎桥本力吴钟勋大竹清敬木俵丰
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1