语义信息生成方法和语义信息生成装置制造方法及图纸

技术编号:14312887 阅读:143 留言:0更新日期:2016-12-30 13:32
提供一种语义信息生成方法及装置,其中,取得包含自然语言的第一文本数据和第二本数据的第一文本语料库,第一文本数据包含第一单词,第二文本数据包含应与第一单词区别语义的第二单词、且第二单词分布与第一单词分布相似;取得包含第三文本数据的第二文本语料库,第三文本数据包含与第一单词和第二单词中的一方相同的第三单词、且关于第三单词的第三单词分布与第一单词分布类似;基于第一文本语料库和第二文本语料库中的单词串排列,对第一单词分配表示第一单词的语义的第一向量,对第二单词分配表示第二单词的语义的第二向量;将第一向量和第一单词相关联地存储,将在向量空间中与第一向量相距预定以上的距离的第二向量和第二单词相关联地存储。

【技术实现步骤摘要】

本公开涉及用于为了处理自然语言的文本信息的语义(意思)而生成针对单词的语义信息的装置及其方法。
技术介绍
存在为了处理自然语言的文本信息的语义而针对构成文本的单词生成语义信息的现有技术(非专利文献2、非专利文献3)。所述现有技术为,从大量的文本数据集(以下记述为文本语料库)学习要向文本语料库中所包含的各单词进行分配的多维度的向量,将单词和与该单词对应的多维度的向量(语义信息)的对应关系作为结果来输出。由这样的现有技术所生成的语义信息能够在单词的语义是否相似的判定中加以使用。现有技术文献专利文献专利文献1:日本特开2002-334077号公报非专利文献非专利文献1:柴田、黑桥“文脈に依存した述語の同義関係獲得”情報処理学会研究報告(“依赖于上下文的谓语的同义关系获得”信息处理学会研究报告),Vol.2010-NL-199No.13非专利文献2:Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean.“Efficent Estimation of Word Representations in Vector Space.”ICLR 2013.非专利文献3:Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,Jeffrey Dean,“Distributed Representations of Words and Phrases and their Compositionality.”NIPS 2013.
技术实现思路
但是,根据现有技术,分配给某单词的语义信息、和分配给要与该单词区别语义的另一单词的语义信息成为相接近的信息,因此,为了在单词的语义是否相似的判定中使用,需要进一步的改善。本公开的一技术方案的方法包括:取得包含第一文本数据和第二文本数据的第一文本语料库,所述第一文本数据包含第一单词、且是用自然语言来记述的第一文章的文本数据,所述第二文本数据包含应与所述第一单词区别语义的第二单词、且是第二单词分布与第一单词分布相似的第二文章的文本数据,所述第二单词分布表示所述第二文章中在所述第二单词之前以及之后的预定范围内出现的单词的种类和出现个数,所述第一单词分布表示所述第一文章中在所述第一单词之前以及之后的所述预定范围内出现的的单词的种类和出现个数;取得包含第三文本数据的第二文本语料库,所述第三文本数据包含作为与所述第一单词和所述第二单词中的至少一方相同的单词的第三单词、且是第三单词分布与所述第一单词分布不相似的第三文章的文本数据,所述第三单词分布表示所述第三文章中在所述第三单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;基于所述第一文本语料库和所述第二文本语料库中的单词串的排列,通过对所述第一单词分配在预定维度的向量空间中表示所述第一单词的语义的第一向量,并对所述第二单词分配在所述向量空间中表示所述第二单词的语义的第二向量,进行学习;对所述第一向量以与所述第一单词相关联的方式进行存储,对在所述向量空间中与所述第一向量相距预定以上的距离的所述第二向量以与所述第二单词相关联的方式进行存储。再者,这些总括或具体的方式可以由系统、装置、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质来实现,也可以由系统、装置、集成电路、计算机程序以及记录介质的任意组合来实现。根据本公开,能够抑制分配给某单词的向量、和分配给应与该单词区别语义的另一单词的向量相接近,因此能够使用在单词的语义是否相似的判定中。再者,本公开的进一步的效果和优点从本说明书以及附图的公开内容得以明确。上述进一步的效果和优点可以由本说明书以及附图所公开的各种实施方式以及特征单独地来提供,但不一定需要提供所有的效果以及优点。附图说明图1是表示本公开的一实施方式中的单词语义信息生成装置的结构的一例的框图。图2是表示第二文本语料库所包含的单词为第一文本语料库所包含的单词的反义词的情况下的单词语义信息生成装置的结构的一例的框图。图3是表示作为一般文本语料库而采用的文本语料库的一例的图。图4是表示作为一般文本语料库而采用的文本语料库的包含存在反义词关系的单词的文本语料库的一例的图。图5是表示存储在反义词文本语料库中的文本数据的一例的图。图6是表示在出现概率的计算中使用的神经网络的结构的一例的图。图7是表示在学习中使用的文本数据的一例的图。图8是表示用1-of-K形式的向量表示的单词的一例的图。图9是使用向量X、H、Y(-2)、Y(-1)、Y(+1)、Y(+2)来表现了图6的神经网络的情况的图。图10是表示本公开的实施方式中的单词语义信息生成装置的学习处理的流程图。图11是在本实施方式的比较例的语义向量表中用主成分分析法使分配给单词“アップ”和单词“ダウン”的语义向量退化(简并)为二维的曲线图。图12是在本实施方式中的语义向量表中用主成分分析法使分配给单词“アップ”和单词“ダウン”的语义向量退化为二维的曲线图。图13是构成语义信息表的利用形式的第一例的家电设备300的框图的一例。图14是构成语义信息表的利用形式的第二例的家电系统的框图的一例。标号说明101:第一文本语料库102:第二文本语料库103:取得部104:语义信息学习部105:语义信息管理部106:语料库生成部107:语义信息表108:操作部110:存储部120:处理部130:存储部201:一般文本语料库201A、201B、201C、201D:文本语料库202:反义词文本语料库202A、202B:文本语料库203:取得部204:语义向量学习部205:语义向量管理部206:语料库生成部207:语义向量表具体实施方式(成为本公开的基础的见解)对前述的现有技术涉及的单词分配多维度的向量的方式是基于在自然语言处理
中被称为分布假设的原理的方式。所谓分布假设是指具有相似的语义的单词被使用在相同的上下文中这一原理。换句话说,是指在具有相似的语义的单词的前后会出现同样的单词这一原理。例如,在非专利文献1中指出了:一般而言,具有反义词的关系的单词间往往上下文相似,即前后的单词串一致或者相似。例如,日语中所谓的“上がる”(提高)这一单词和“アップする”(提高)这一单词,分别在构成如“ボーナス/が/上がる/と/うれしい”(奖金提高的话会很高兴)、“ボーナス/が/アップする/と/うれしい”(奖金提高的话会很高兴)这样的句子时使用,“ボーナス/が”(奖金)、“と/うれしい”(高兴)这样的前后的单词串是共同的。在基于分布假设的现有技术中,对单词分配多维度的向量时,在文本语料库中前后的上下文相似的单词彼此被分配了值接近的向量。其结果是,基于分布假设的现有技术能够将单词转换为多维度的向量,用所得到的多维度的向量是否相似来判定单词的语义是否相似。但是,基于分布假设的现有技术存在对于具有互相相反的语义的反义词也会分配了值接近的向量这一问题。例如,“上涨”、“下跌”这样的单词会出现在“股价/会/上涨/吧”、“股价/会/下跌/吧”这样的句子中,因此,如“股价/会”、“吧”这样,前后的上下文是共同的。因此,当按照分布假设的“具有相似语义的单词被使用在相同的上下文中”这一原理时本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201610318082.html" title="语义信息生成方法和语义信息生成装置原文来自X技术">语义信息生成方法和语义信息生成装置</a>

【技术保护点】
一种语义信息生成方法,包括:取得包含第一文本数据和第二文本数据的第一文本语料库,所述第一文本数据包含第一单词、且是用自然语言来记述的第一文章的文本数据,所述第二文本数据包含应与所述第一单词区别语义的第二单词、且是第二单词分布与第一单词分布相似的第二文章的文本数据,所述第二单词分布表示所述第二文章中在所述第二单词之前以及之后的预定范围内出现的单词的种类和出现个数,所述第一单词分布表示所述第一文章中在所述第一单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;取得包含第三文本数据的第二文本语料库,所述第三文本数据包含作为与所述第一单词和所述第二单词中的至少一方相同的单词的第三单词、且是第三单词分布与所述第一单词分布不相似的第三文章的文本数据,所述第三单词分布表示所述第三文章中在所述第三单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;基于所述第一文本语料库和所述第二文本语料库中的单词串的排列,通过对所述第一单词分配在预定维度的向量空间中表示所述第一单词的语义的第一向量,并对所述第二单词分配在所述向量空间中表示所述第二单词的语义的第二向量,进行学习;对所述第一向量以与所述第一单词相关联的方式进行存储,对在所述向量空间中与所述第一向量相距预定以上的距离的所述第二向量以与所述第二单词相关联的方式进行存储。...

【技术特征摘要】
2015.06.17 JP 2015-1216701.一种语义信息生成方法,包括:取得包含第一文本数据和第二文本数据的第一文本语料库,所述第一文本数据包含第一单词、且是用自然语言来记述的第一文章的文本数据,所述第二文本数据包含应与所述第一单词区别语义的第二单词、且是第二单词分布与第一单词分布相似的第二文章的文本数据,所述第二单词分布表示所述第二文章中在所述第二单词之前以及之后的预定范围内出现的单词的种类和出现个数,所述第一单词分布表示所述第一文章中在所述第一单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;取得包含第三文本数据的第二文本语料库,所述第三文本数据包含作为与所述第一单词和所述第二单词中的至少一方相同的单词的第三单词、且是第三单词分布与所述第一单词分布不相似的第三文章的文本数据,所述第三单词分布表示所述第三文章中在所述第三单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;基于所述第一文本语料库和所述第二文本语料库中的单词串的排列,通过对所述第一单词分配在预定维度的向量空间中表示所述第一单词的语义的第一向量,并对所述第二单词分配在所述向量空间中表示所述第二单词的语义的第二向量,进行学习;对所述第一向量以与所述第一单词相关联的方式进行存储,对在所述向量空间中与所述第一向量相距预定以上的距离的所述第二向量以与所述第二单词相关联的方式进行存储。2.根据权利要求1所述的方法,所述第二文本语料库包含所述第三单词和第四单词,所述第四单词是在自然语言的文本数据中不出现的人为创造的单词,在所述第三文本数据中,所述第三单词之前以及之后的所述预定范围内所包含的单词是所述第四单词。3.根据权利要求1所述的方法,所述第一文本数据和所述第二文本数据由第一语言的单词构成,在所述第三文本数据中,所述第三单词是所述第一语言的单词,所述第三单词之前以及之后的所述预定范围内所包含的单词是与所述第一语言不同的第二语言的单词。4.根据权利要求1所述的方法,所述第二单词是与所述第一单词相对的反义词。5.根据权利要求1所述的方法,所述第二单词是具有与所述第一单词相同的语义、且程度与该第一单词不同的单词。6.根据权利要求1所述的方法,所述第二单词是属于与所述第一单词相同的概念、且属性与该第一单词不同的单词。7.根据权利要求1所述的方法,所述学习使用神经网络来进行。8.根...

【专利技术属性】
技术研发人员:山上胜义牛尾贵志石井育规
申请(专利权)人:松下知识产权经营株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1