关系信息扩展装置、关系信息扩展方法以及程序制造方法及图纸

技术编号:7955842 阅读:164 留言:0更新日期:2012-11-09 00:58
提供一种可以基于包含具有语义关系的两个以上语言表达的现有的关系信息获得新的关系的关系信息扩展装置。该装置具备:关系信息存储部(11),存储关系信息;相似信息存储部(12),存储两个以上具有相似的两个以上语言表达的相似信息;扩展关系候补信息生成部(13),生成扩展关系候补信息并将其蓄积在扩展关系候补信息存储部(14)中,该扩展关系候补信息使用相似信息将关系信息中包含的至少一个语言表达置换为与该语言表达相似的语言表达;分数取得部(15),取得表示扩展关系候补信息具有语义关系的概率的分数;选择部(16),使用该分数,扩展关系候补信息中选择分数高的扩展关系候补信息、即扩展关系信息。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及ー种对包含具有语义关系的两个以上语言表达的关系信息进行扩展的关系信息扩展装置等。
技术介绍
以往,进行了包含具有语义关系的两个以上语言表达的关系信息的取得。此处,所谓语义关系,例如是原因或上位下位等关系。从而,关系信息例如是表示死亡的原因为心肌梗塞的“原因〈心肌梗塞,死亡〉”,或表示头疼药的上位词为药的“上位〈药,头疼药〉”等。作为取得该关系信息的方法,例如可以使用非专利文献I中公开的方法。该非专利文献I中,例如,通过将“X为Y的原因”这ー表达的模式作为线索而从文件取得X、Y的部分,可以取得 关系信息。但是,使用了这样的模式的方法中,只能取得以作为其线索的模式描述的关系。作为用于解决该问题的方法,例如,非专利文献2中公开了使用类推而取得关系信息的方法。现有技术文献非专利文献 I :P. Pantel, M. Pennacchiotti, “Espresso Leveraging genericpatterns I or automatically harvesting semantic relations へ In Proc.oi the2IstCOLING and 44th ACL (C0LING-ACL-06),p.113-120,2006 年非专利文献2 :石川大介、石塚英弘、藤原让,“由使用了专利文献中的因果关系的类推进行的假说的生成和验证-以生命科学领域为对象-”信息知识学会杂志,Vol. 17,No. 3,p.164-181,2007 年但是,非专利文献2中,在置换关系信息中包含的语言表达时,只能置换为词干共通的表达。例如,可以将“肽”置换为“抗菌肽”,但是不能够置换为不共用该词干的词。此夕卜,置換后的关系信息中还包含不恰当的关系信息。
技术实现思路
本专利技术是为了解决上述问题而完成的,其目的在于提供一种关系信息扩展装置等,在扩展现有的关系信息时,可以将关系信息中包含的语言表达扩展为词干不共通的词,此外,可以扩展为具有恰当的语义关系的关系信息。为了实现上述目的,本专利技术的关系信息扩展装置具备关系信息存储部,存储包含具有语义关系的两个以上语言表达的关系信息;相似信息存储部,存储两个以上相似信息,该相似信息具有两个以上相似的语言表达;扩展关系候补信息存储部,存储至少ー个语言表达被置换为相似的语言表达的关系信息、即扩展关系候补信息;扩展关系候补信息生成部,生成扩展关系候补信息,并将扩展关系候补信息蓄积在扩展关系候补信息存储部中,其中,该扩展关系候补信息为,使用相似信息将关系信息存储部中存储的关系信息中包含的至少ー个语言表达置换为与该语言表达相似的语言表达而形成的;分数取得部,取得表示扩展关系候补信息存储部中存储的扩展关系候补信息具有语义关系的概率的分数;以及选择部,使用分数取得部取得的分数,在扩展关系候补信息存储部中存储的扩展关系候补信息中选择分数高的扩展关系候补信息、即扩展关系信息。通过这样的构成,将语言表达置换为相似的语言表达,因此,可以将语言表达置换为词干不共通的语言表达。此外,取得扩展关系候补信息的分数并选择该分数高的,因此作为其选择结果的扩展关系信息能够成为恰当地具有语义关系的信息。此外,本专利技术的关系信息扩展装置中,也可以是,分数取得部取得同现分数,该同现分数为,与扩展关系候补信息中包含的两个以上语言表达 的同现有关的分数。具有语义关系的语言表达被认为同现的可能性高,因此通过这样的构成,通过选择同现分数高的,可以进行恰当的选择。此外,本专利技术的关系信息扩展装置中,也可以是,分数取得部取得经由分数,该经由分数为,从越多关系信息得到扩展关系候补信息,其值越高。恰当的扩展关系信息被认为能够从许多关系信息得到,因此通过这样的构成,通过选择经由分数高的,可以进行恰当的选择。此外,本专利技术的关系信息扩展装置中,也可以是,分数取得部取得同现分数和经由分数,其中,该同现分数为,与扩展关系候补信息中包含的两个以上语言表达的同现有关的分数,而该经由分数为,从越多关系信息得到扩展关系候补信息,其值越高,选择部选择同现分数高并且经由分数高的扩展关系候补信息。通过这样的构成,通过选择同现分数和经由分数高的扩展关系候补信息,可以进行更恰当的选择。此外,本专利技术的关系信息扩展装置中,也可以是,所述分数取得部取得如下同现分数,即,与仅由所述扩展关系候补信息中包含的两个以上语言表达同现的场合相比,所述扩展关系候补信息中包含的两个以上语言表达和同现语言表达同现时,同现分数具有更高的值,其中,同现语言表达是,相对于具有与生成该扩展关系候补信息时所使用的关系信息的语义关系相同种类的语义关系的各关系信息中包含的两个以上语言表达,同现程度高的语言表达。通过这样的构成,根据该同现分数,可以取得越是具有与扩展关系候补信息的生成中使用的关系信息同样关系的信息则成为越高的值的同现分数。此外,本专利技术的关系信息扩展装置中,也可以是,所述关系信息还具有种类识别信息,该种类识别信息为,识别该关系信息所具有的两个以上语言表达的语义关系的种类的信息,所述扩展关系候补信息生成部生成扩展关系候补信息,该扩展关系候补信息具有在生成扩展关系候补信息中使用的关系信息所含有的种类识别信息,该关系信息扩展装置进一歩具备存储ー个以上对应信息的对应信息存储部,该对应信息具有种类识别信息、以及与该种类识别信息对应且与由该种类识别信息识别的语义关系的种类对应的ー个以上同现语言表达,所述分数取得部以如下方式取得同现分数,即,与仅由所述扩展关系候补信息中包含的两个以上语言表达同现的场合相比,当所述扩展关系候补信息中包含的两个以上语言表达和与该扩展关系候补信息具有的种类识别信息对应的各同现语言表达同现时,同现分数具有更高的值。通过这样的构成,可以使用对应信息取得上述那样的同现分数。此外,本专利技术的关系信息扩展装置中,也可以是,所述分数取得部,至少将两个以上语言表达的组中包含的与该两个以上语言表达同现的语言表达用作特征,将该特征的值以及对于两个以上语言表达的组的语义关系的有无作为监瞀数据而进行机器学习,取得与输入所述扩展关系候补信息中包含的两个以上语言表达时的输出、即可信度相应的同现分数。通过这样的构成,可以使用机器学习取得上述那样的同现分数。此外,本专利技术的关系信息扩展装置中,也可以是,越是从更多关系信息得到扩展关系候补信息,经由分数具有越高的值,并且,在该扩展关系候补信息生成时的置換中,置換前的语言表达和置換后的语言表达越相似,经由分数具有越高的值。恰当的扩展关系信息被认为能够以高相似度从许多关系信息得到,因此通过这样的构成,可以还考虑相似度而取得经由分数,从而可以进行更恰当的选择。此外,本专利技术的关系信息扩展装置中,也可以是,关系信息以及扩展关系候补信息具有第一语言表达和第二语言表达这两个语言表达,分数取得部对某个扩展关系候补信 息,取得以第一计算值、第二计算值和第三计算值中的任意的ー个以上计算值作为自变量的增函数的值、即经由分数,该第一计算值是第二语言表达与扩展关系候补信息一致的各关系信息的第一语言表达和扩展关系候补信息的第一语言表达的相似度的和,该第二计算值是第一语言表达与扩展关系候补信息一致的各关系信息的第二语言表达和扩展关系候补信息的第二语言表达的相似度的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:土田正明史蒂恩·德萨哲乌泽健太郎村田真树风间淳一黑田航
申请(专利权)人:独立行政法人情报通信研究机构
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1