当前位置: 首页 > 专利查询>索尼公司专利>正文

信息处理设备、信息处理方法及程序技术

技术编号:6838015 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种信息处理设备、信息处理方法及程序。该信息处理设备包括:数据获取器,被配置成获取具有多个句子的句子集合和包括在句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个短语特征表示数据获取器获取的短语中的各个短语的特性;集合特征判定器,被配置成判定表示句子集合的特性的集合特征;以及压缩器,被配置成通过使用短语特征和集合特征来生成压缩短语特征,压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。

【技术实现步骤摘要】

本专利技术涉及一种信息处理设备、信息处理方法及程序
技术介绍
近年来,在计算机的信息处理能力增强的背景下,在自然语言处理领域中统计地处理文本的语义方面的技术正引起关注。此技术的一个示例是分析文档的内容并将各个文档分类到各种类别的文档分类技术。另一个示例是从所累积的文本的集合中提取有益信息的文本挖掘技术,其中,上述所累积的文本的集合例如是互联网上的网页或从公司的客户发送的问题或意见的历史。通常,即使在表达一个相同的或类似的意思的情况下,在文本中经常使用不同的词或短语。因此,在文本的统计分析中试图通过定义用于表示文本的统计特性的向量空间并在向量空间中对各个文本的特征进行聚类来区分具有相似意思的文本(例如, 参考 Alexander Yates 禾口 Oren Etzioni, "Unsupervised Methods for Determining Object and RelationSynonyms on the Web,,,Journal of Artigicial Intelligence Research(JAIR)34,2009年3月,第255-296页(在下文中,非专利文献1))。作为用于表示文本的统计特性的向量空间,例如经常使用的是通过将在文本中可能出现的词汇表中所包括的单个词布置为向量的单个分量(向量空间的轴)而构成的向量空间。
技术实现思路
但是,尽管对特征进行聚类的技术至少在例如具有多个句子的文档的分类中是有效的,但是该技术在试图识别短语的等同或同义关系的情况下难以产生显著成果。其主要原因是短语中所包括的词的数量小。例如,对人、内容或产品进行介绍的诸如新闻文章或网页的文档通常包括几十到几百个词。相反地,短语是比一个句子更小的单位,短语通常仅包括几个词。因此,由于甚至文档的特征都趋向于被获取为稀疏向量(其中的大部分分量为零的向量),所以短语的特征将被获取为更稀疏的向量即超稀疏向量。这样的超稀疏向量具有在意思的识别中可作为线索使用的信息很少的方面。这导致例如下面的问题。具体地, 在基于超稀疏向量之间的相似性(余弦距离)的聚类中,根据意思应该属于一个簇的两个或更多个向量未被聚类到一个簇中。例如,存在通过使用诸如奇异值分解(SVD)、关于潜在意义分析的概率潜在语义分析(PLSA)、或潜在狄利克雷分配(LDA)的概率技术将高维的向量压缩成低维的向量的技术。这些概率技术有效地用在对文档的特征的维数的压缩中。但是,如果只是将这些概率技术应用到作为超稀疏向量的短语的特征,数据的有效性丢失,并且在许多情况下获取的仅仅是不适合于诸如聚类的后续阶段处理的输出。针对这种情形,上述的非专利文献1为了获取关于短字符串的特征的有效性,试图通过从网上的文本中集合数量大约为几百万的字符串来保证大规模的数据集合。但是,处理这样的大规模数据集合导致对资源的限制的问题。另外,也存在实质上无法保证大规模的数据集合的许多情形,例如对属于所谓的长尾(long tail)的主题进行处理的情况。例如,为了促进在短语级别识别等同或同义关系,本专利技术需要提供新颖的、改进的信息处理设备、信息处理方法和程序,其能够在保持或提高特征的有效性的同时压缩短语的特征的维数。根据本专利技术的一个方式,提供了一种信息处理设备,该信息处理设备包括数据获取器,被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外,该信息处理设备还包括集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。根据此配置,信息处理设备通过除使用表示各个短语的特性的短语特征之外,还使用表示作为短语获取来源的句子集合的特性的集合特征,来在补偿特征的少量信息的同时压缩短语特征。短语特征可以是具有分量的向量,其中,该向量的每个分量对应于出现在多个短语中的词中的各个词。集合特征可以是具有分量的矩阵,其中,该矩阵的每个分量对应于出现在句子集合中的词的组合中的各个词的组合;以及短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。 压缩器可以通过概率模型中的最大似然估计来计算潜在变量,在该概率模型中, 关于多个短语的短语特征和集合特征被视为观测数据以及潜在变量有助于观测数据的出现;以及压缩短语特征包括在潜在变量中。有助于集合特征的出现的潜在变量和有助于短语特征的出现的潜在变量是至少部分地在概率模型中彼此通用的潜在变量。压缩器可以通过集合特征的矩阵分解来计算具有低于集合特征的阶的阶的第一低阶矩阵,以及通过短语特征矩阵的矩阵分解来计算具有低于短语特征矩阵的阶的阶的第二低阶矩阵,其中,短语特征矩阵包括关于多个短语的短语特征。另外,第二低阶矩阵是通过与具有和第一低阶矩阵的通用部分的矩阵的乘积来近似地导出短语特征矩阵的矩阵,以及压缩短语特征包括在第二低阶矩阵中。第一低阶矩阵和第二低阶矩阵可以分别等同于例如稍后描述的低阶矩阵Mt4和低阶矩阵Mtl。集合特征判定器根据关于词的组合中的每个词的组合在句子集合中共同出现的次数来判定集合特征。集合特征判定器根据词之间的同义关系来判定集合特征。信息处理设备还可包括聚类部件,其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类。聚类部分可将与作为簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。数据获取器可提取均包括在句子集合中的一个句子中的词的对,以及获取多个短语,其中,多个短语中的每个短语表示关于所提取的对中的各个对的词之间的关系。信息处理设备还可包括聚类部件,其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类;以及摘要器,其被配置成关注包括在句子集合中的特定词,以及通过使用聚类部件关于与关注词有关的短语的聚类结果来创建关于关注词的摘要信息。根据本专利技术的另一方式,提供了一种通过使用信息处理设备中的处理装置来实现的信息处理方法。该信息处理方法包括以下步骤获取具有多个句子的句子集合和包括在句子集合中的多个短语;以及判定短语特征,其中每个短语特征表示所获取的短语中的各个短语的特性。另外,该信息处理方法还包括以下步骤判定表示所获取的句子集合的特性的集合特征;以及通过使用短语特征和集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示多个短语当中的各个短语的特性。根据本专利技术的另一方式,提供了一种用于将控制信息处理设备的计算机用作处理装置的程序,该处理装置包括数据获取器,被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外,该装置还包括集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度本文档来自技高网...

【技术保护点】
1.一种信息处理设备,包括:数据获取器,被配置成获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语;短语特征判定器,被配置成判定短语特征,其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性;集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及压缩器,被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征,所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:高松慎吾
申请(专利权)人:索尼公司
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1