当前位置: 首页 > 专利查询>索尼公司专利>正文

信息处理装置、信息处理方法制造方法及图纸

技术编号:2883115 阅读:150 留言:0更新日期:2012-04-11 18:40
从单词集合输出部分将一个单词连同用于代表该单词指示的事物的概念符号函数输入到最优单词串输出部分。最优单词串输出部分根据各个概念符号函数计算来自单词集合输出部分的单词和登记在词典中的登记单词之间的相似性。在输入没有登记在词典中的单词的情况下,最优单词串输出部分也计算该单词和登记在词典中的单词之间的相似性。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及信息处理装置、信息处理方法及其记录介质,更具体地说,涉及这样的信息处理装置、信息处理方法及记录介质,使得即使没有提供大容量词典也能够比如针对许多单词计算单词之间的相似性,以及即使没有提供复杂的语法规则等也能够将单词的集合转换成构成适当含义的单词排列(单词串)。
技术介绍
从含义上考虑单词间的相似性(类似性)在自然语言处理技术中用于各种使用目的。也就是说,比如,作为一种翻译处理的技术,其方法是事先准备大量双语对照例句,从这些双语对照例句中搜索与输入的句子最相似的例句并修正所搜索的双语对照例句,生成将输入的句子翻译后的翻译句子。在该种方法中,根据构成输入句子的各个单词和构成对应于这些单词的双语对照例句的单词之间的相似性(单词相似性),计算输入句子与双语对照例句的相似性。作为计算单词相似性的方法,公知的方法是使用树状或网络状词库的方法,和/或使用单词在句子中的共同出现信息的方法。在使用词库的方法中,比如,在词库中确定构成连接各节点的最短路径的弧线的数目,这些节点分别对应于计算其间单词相似性的相应的两个单词。该弧线数目的倒数导致单词相似性。另外,在使用共同出现信息的方法中,针对大量的句子,登记在这些句子中显现的单词的共同出现信息。因此,根据从该共同出现信息中获得的统计数量(关于尝试计算其间单词相似性的两个单词的容易共同出现的单词的统计数量)确定单词相似性。应该指出的是,有关使用词库计算单词相似性的方法,其详细描述比如见D-II,Vol.J77-D-II,No.3,pp.557-565,1994,饭田仁“消除英语介词词组修正目标的初始使用的模糊性”(D-II,Vol.J77-D-II,No.3,pp.557-565,1994,Jin Iida“Cancellation of use initiative ambiguity of modification destinationof English prepositional phase”)Bulletin of Electronic Information Society,而有关使用共同出现信息计算单词相似性的方法,其详细描述比如见DonaldHindle的“根据谓语变数结构对名词分类”,计算语言学联合会年会论文集,pp.268-275,1990(Donald Hindle,“Noun classification from predicate-argumentstructure”,Proceedings of Annual meeting of the Association for ComputationalLinguistics,pp.268-275,1990)等。同时,在使用词库或共同出现信息的方法中,对于在词库中没有登记的单词或在共同出现信息中没有登记的单词(下文中在需要时称作未登记的单词),不能计算单词的相似性。因此,在使用词库或共同出现信息执行语言处理的语言处理系统中试图实现丰富的语言能力时,必须使用大量的学习样本进行学习,以生成其中登记了词库或共同出现信息的词典。但是,在语言处理系统中,希望只通过少量的用于学习的样本进行灵活地和高效地学习,以便实现丰富的语言能力。为了实现此目的,对于未登记的单词,也需要计算那些未登记的单词和学习的单词之间的单词相似性,并且还必须计算包括未登记的单词的单词串和从学习的语法规则中获得的单词串之间的相似性(单词串相似性)。另一方面,比如1998年岩波书店出版的岩波讲座、语言科学6、语法生成、第4章中福井直树的“以说明性的语言理论为目标的最小模型的改进”(Naoki Fukui,“Development of minimum model-oriented to explanatorytheory of language”Iwanami lecture,Science of language 6 generation grammar,Chapter4,Iwanami bookstore,1998)等,描述了人类将多个单词的集合以符合语法的适当顺序排列的活动是人类的语言能力中的思维或心理活动的根本,并且阐明该心理功能的机理在理论语言学中被作为重要的研究课题对待。另外,实现能生成与人类进行的单词排列相似的单词排列的功能,也是在开发实现(仿真)(整个或部分)人类语言功能的系统时所期望的。但是,在目前的情况下,在语言处理系统中学习的初期阶段,即语法规则学习不充分或欲处理的单词没有作为学习样本给出的阶段,不可能计算单词相似性和单词串相似性。因此,很难获得合适的单词排列(单词串)。此外,在利用不充分语法规则获得的单词串只能输出的情况下,系统的语言表现能力将受到限制。鉴于以上事实,需要这样一种技术,即对于没有在通过学习获得的词典中登记的单词,也能够计算未登记的单词和在词典中登记的单词(下文中需要时称作登记的单词)之间的单词相似性,并且根据该单词相似性能使单词成串(clustering)以使学习的语法更具有通用性。专利技术的公开考虑到上述现状,本专利技术已经进行并且试图在即使没有提供大容量词典时也能够针对许多单词计算单词之间的相似性,以及即使没有提供复杂的语法规则等时也能够将单词的集合转换成具有适当含义的单词串。根据本专利技术的信息处理装置包括输入部分,用于输入单词连同表示单词表达的事物(matter)的概念符号函数(concept notation function),以及单词相似性计算部分,用于计算单词和登记的单词之间的相似性的单词相似性。在词典中,可以存储登记的单词连同关于该登记的单词的概念符号函数。在根据本专利技术的信息处理装置中,可以进一步包括存储词典的词典存储器部分。概念符号函数可以是表示从单词表达的事物中获得的信息的函数。另外,概念符号函数可以是表示从用于感受由单词表达的事物给出的刺激的传感器部分的输出中获得的信息的函数。传感器部分可以是将光或声信号转换为电信号的器件、触觉传感器、温度传感器或加速度传感器。在这种情况下,概念符号函数可以是通过传感器部分表示通过探测单词表达的事物而获得的参数的函数。概念符号函数可以是概率密度函数或离散概率分布函数。单词相似性计算部分根据单词和登记的单词的概念符号函数之间的Bhattacharyya距离或Kullback散度(divergence)计算该单词和登记的单词之间的单词相似性。在输入部分中,将作为一组单词的单词集合连同有关各单词的概念符号函数输入。词典存储其中排列多个登记的单词的登记单词串的集合连同有关各登记的单词的概念符号函数。在这种情况下,信息处理装置可以进一步包括单词串生成部分,用于生成其中排列构成单词集合的单词的单词串;单词串相似性计算部分,用于从构成单词串的各单词和相应于这些单词的构成登记的单词串的登记单词之间的单词相似性、计算单词串和登记的单词串之间的单词串相似性;以及输出部分,用于根据单词串相似性输出其中将构成单词集合的单词按预定顺序排列的单词串。根据本专利技术的一种信息处理方法包括输入步骤,将单词连同作为用于表示单词表达的事物的函数的概念符号函数输入,以及单词相似性计算步骤,根据概念符号函数计算单词和登记的单词之间的相似性的单词相似性。根据本专利技术的一种记录本文档来自技高网...

【技术保护点】
一种信息处理装置,用于确定输入的单词和在词典中登记的单词之间的相似性,该信息处理装置包括:输入装置,用于将单词连同表示该单词表达的事物的概念符号函数输入;以及单词相似性计算装置,用于根据概念符号函数计算单词和登记的单词之间的相似性的 单词相似性。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:岩桥直人
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1