信息处理装置、信息处理方法、程序和记录介质制造方法及图纸

技术编号:2822886 阅读:173 留言:0更新日期:2012-04-11 18:40
在此公开了一种用于分析文本数据的信息处理装置,包括:获取部件,用于获取文本数据;词素信息登记部件,用于登记在语形学地分析文本数据中使用的词素信息;语形学分析部件,用于分析由获取部件获取的文本数据;复合词处理规则登记部件,用于登记用于创建未被登记在词素信息登记部件中的复合词的复合词处理规则;以及复合词处理部件,用于通过使用被登记在复合词处理规则登记部件中的复合词处理规则,来将由语形学分析部件创建的语形学分析信息中所包括的词素组合为未被登记在词素信息登记部件中的复合词,并用于检测所创建的复合词。

【技术实现步骤摘要】

本专利技术涉及信息处理装置、信息处理方法、程序和记录介质。更具体地,本专利技术涉及适合于分析以电子形式(electronic form)的文本的信息处理装置、 信息处理方法、程序和记录介质。
技术介绍
通常,语形学分析包括将用自然语言写成的文本划分为作为语言学上有 意义的单元的词素,从而提供逐词素的信息(例如,语音部分)。这种分析是 用于自然语言处理的基本技巧之一并被广泛实践。在传统的语形学分析中,在词典中所登记的词是词素的单元。基本上缺 少了两个功能确定使用多个词素间的关系的复合词的功能;和将被登记在 词典中作为复合词的任何一个词分割为多个词素的功能。如果需要从词典中提取出以被分割的词的形式的任何登记的复合词,有 必要预先登记组成词典中该复合词的组成单元,或者预先登记组成所讨论的 复合词的最有意义的词(例如见日本专利特许公开号2002-259426)。
技术实现思路
如果上述与组成所讨论的词的所分割的词相关联地将每一个和每个复合 词登记在词典中,词典将在容量上会变得十分庞大。此外,所登记的词的数 量增长将使词典的维护逐渐困难。由于通常的语形学分析没有确定使用多个词素间的关系的任何复合词的 功能,因此专利技术出与语形学分析无关的工具以进行诸如句法分析和对语形学 分析的结果的依赖性分析(dependency analysis )之类的分析,以便基于多个 词素间的关系确定感兴趣的复合词。与从语形学分析中获取的词素相关联的词信息被登记在词典中。过去, 可能将除语形学分析外的句法分析和依赖性分析的结果安排以包括关于句法 和依赖性的信息,但是不能给其提供关于作为词素的复合词的信息。例如,假设包括术语"AAA股份公司"(AAA是个表示公司名字的专有 名词)的句子经过语形学分析。在传统的语形学分析中,有两种可能的结果。 如果术语"AAA股分公司,,已经被登记在词典中作为专有名词,那么该分析 将跳过(yield) "AAA股份公司,,(专有名词)。如果术语"AAA股份公司" 没有被登记在词典中作为专有名词,那么该术语将被例证地划分为"AAA" (专有名词)和"股份公司"(普通名词);或者划分为"AAA"(专有名词), "股份"(普通名词),和"公司"(普通名词)。当没有发现被登记在词典中的术语"AAA股份公司,,(专有名词)被划 分为"AAA"(专有名词)和"股份公司"(普通名词);或者是"AAA"(专 有名词),"股份"(普通名词),和"公司"(普通名词)时,语形学分析的这 些结果被施加诸如句法分析和依赖性分析的其它处理,从而检测到复合词 "AAA股份公司"。然而,该处理无法提供带有作为语音或朗读的部分的词 信息的所获取的复合术语。如上所述,平常的语形学分析受在词典中登记作为单元的词的严重影响。 难以获取关于小于在词典中所登记的单元的任何词素的信息,或者难以获得 关于可能通过组合词素而创建的任何复合词的信息。本专利技术考虑到以上的情况,提供了用于获取除了在词典中登记的词以外 的分析结果的方案。在执行本专利技术并根据其第一实施例时,提供一种用于分析文本数据的信 息处理装置,包括获取部件,用于获取所述文本数据;词素信息登记部件, 用于登记在语形学地分析所述文本数据中使用的词素信息;语形学分析部件, 用于根据由所述词素信息登记部件登记的所述词素信息来分析由所述获取部 件获取的所述文本数据,从而创建以构成所述文本数据的词素的表格的形式 的语形学分析信息;复合词处理规则登记部件,用于登记用于创建未被登记 在所述词素信息登记部件中的复合词的复合词处理规则;以及复合词处理部 件,用于通过使用被登记在所述复合词处理规则登记部件中的所述复合词处 理规则,来将由所述语形学分析部件创建的所述语形学分析信息中所包括的 所述词素组合为未被登记在所述词素信息登记部件中的所述复合词,并用于 检测所创建的复合词。优选地,被登记在所述复合词处理规则登记部件中的所述复合词处理规 则可以指定用于从多个相邻词中组合的复合词中所包括的词的条件。优选地,被登记在所述复合词处理规则登记部件中的所述复合词处理规 则可以包括用于给vMv多个词中组合的复合词才是供由语音、朗读和词开销的部 分构成的至少一个信息条目的描述。优选地,如本专利技术的第一实施例所实现的信息处理装置还可以包括输出 部件,用于输出由所述语形学分析部件创建的所述语形学分析信息以及由所 述复合词处理部件检测的所述复合词。优选地,如本专利技术的第 一 实施例所实现的信息处理装置还可以包括分割 词素提取部件,用于根据被登记在所述词素信息登记部件中的所述词素信息 来进一步分析在由所述语形学分析部件创建的所述语形学分析信息中包括的 所述词素,,人而从所述词素中提取分割词素。优选地,如本专利技术的第 一 实施例所实现的信息处理装置还可以包括输出 部件,用于输出由所述语形学分析部件创建的所述语形学分析信息、由所述 复合词处理部件检测的所述复合词、和由所述分割词素提取部件提取的所述 分割词素。优选地,被登记在所迷词素信息登记部件中的所述词素信息可以包括关于感兴趣的词素是否是复合词的信息;其中所述语形学分析部件可以在所述语形学分析信息中并入关于组成以所述语形学分析信息的表格的形式的所述 文本数据的词素的每个是否被登记在所述词素信息登记部件中作为复合词的信息;以及其中如果参考所述语形学分析信息发现感兴趣的词素被登记在所述词素信息登记部件中作为复合词,所述分割词素提取部件可以提取组成所 述词素的所述分割词素。 . 根据本专利技术的第二实施例,提供一种供用于分析文本数据的信息处理装置使用信息处理方法,,所述信息处理方法包括以下步骤获取所述文本数据; 根据用于语形学地分析所述文本数据的词典数据来分析所获取的文本数据; 根据所述分析的结果来创建以构成所述文本数据的词素的表格的形式的语形 学分析信息;以及通过使用用于创建未被登记在所述词典数据中的复合词的 复合词处理规则,来将所述语形学信息中所包括的所述词素组合为未被登记 在所述词典数据中的所述复合词,并检测所创建的复合词。根据本专利技术的第三实施例,提供一种用于使计算机进行用于分析文本数 据的过程的程序,所述过程包括步骤获取所述文本数据;根据用于语形学结果来创建以构成所述文本数据的词素的表格的形式的语形学分析信息;以 及通过使用用于创建未被登记在所述词典数据中的复合词的复合词处理规 则,来将所述语形学信息中所包括的所述词素组合为未^皮登记在所述词典数 据中的所述复合词,并检测所创建的复合词。在使用上述的本专利技术的第一、第二、或第三实施例的情况下,首先获取 文本数据。根据用于语形学地分析文本数据的词典数据来分析所获取的文本 数据。然后根据分析的结果,以构成文本数据的词素的表格的形式创建语形 学分析信息。通过使用用于创建未被登记在词典数据中的复合词的复合词处 理规则,被包括在语形学分析信息中的词素被组合成未被登记在词典数据中 的复合词中,且检测所创建的复合词。根据本专利技术的第四实施例,提供一种用于分析文本数据的信息处理装置, 包括获:f又部件,用于获取所述文本数据;词素信息登记部件,用于登记在 语形学地分析所述文本数据中使用的词素信息;语形学分析部件,用于根据 由所述词素信息登记部件登记的所述词素信息来分析由所本文档来自技高网...

【技术保护点】
一种用于分析文本数据的信息处理装置,包括:    获取部件,用于获取所述文本数据;    词素信息登记部件,用于登记在语形学地分析所述文本数据中使用的词素信息;    语形学分析部件,用于根据由所述词素信息登记部件登记的所述词素信息来分析由所述获取部件获取的所述文本数据,并用于创建以构成所述文本数据的词素的表格的形式的语形学分析信息;    复合词处理规则登记部件,用于登记用于创建未被登记在所述词素信息登记部件中的复合词的复合词处理规则;以及    复合词处理部件,用于通过使用被登记在所述复合词处理规则登记部件中的所述复合词处理规则,来将由所述语形学分析部件创建的所述语形学分析信息中所包括的所述词素组合为未被登记在所述词素信息登记部件中的所述复合词,并用于检测所创建的复合词。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:小林贤一郎
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1