【技术实现步骤摘要】
本公开涉及用于为了处理自然语言的文本信息的语义(意思)而生成针对单词的语义信息的装置及其方法。
技术介绍
存在为了处理自然语言的文本信息的语义而针对构成文本的单词生成语义信息的现有技术(非专利文献2、非专利文献3)。所述现有技术为,从大量的文本数据集(以下记述为文本语料库)学习要向文本语料库中所包含的各单词进行分配的多维度的向量,将单词和与该单词对应的多维度的向量(语义信息)的对应关系作为结果来输出。由这样的现有技术所生成的语义信息能够在单词的语义是否相似的判定中加以使用。现有技术文献专利文献专利文献1:日本特开2002-334077号公报非专利文献非专利文献1:柴田、黑桥“文脈に依存した述語の同義関係獲得”情報処理学会研究報告(“依赖于上下文的谓语的同义关系获得”信息处理学会研究报告),Vol.2010-NL-199No.13非专利文献2:Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean.“Efficent Estimation of Word Representations in Vector Space.”ICLR 2013.非专利文献3:Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,Jeffrey Dean,“Distributed Representations of Words and Phrases and their Compositionality.”NIPS 2013.
技术实现思路
但是,根据现有技术,分配给某单词的语义信息、 ...
【技术保护点】
一种语义信息生成方法,包括:取得包含第一文本数据和第二文本数据的第一文本语料库,所述第一文本数据包含第一单词、且是用自然语言来记述的第一文章的文本数据,所述第二文本数据包含应与所述第一单词区别语义的第二单词、且是第二单词分布与第一单词分布相似的第二文章的文本数据,所述第二单词分布表示所述第二文章中在所述第二单词之前以及之后的预定范围内出现的单词的种类和出现个数,所述第一单词分布表示所述第一文章中在所述第一单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;取得包含第三文本数据的第二文本语料库,所述第三文本数据包含作为与所述第一单词和所述第二单词中的至少一方相同的单词的第三单词、且是第三单词分布与所述第一单词分布不相似的第三文章的文本数据,所述第三单词分布表示所述第三文章中在所述第三单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;基于所述第一文本语料库和所述第二文本语料库中的单词串的排列,通过对所述第一单词分配在预定维度的向量空间中表示所述第一单词的语义的第一向量,并对所述第二单词分配在所述向量空间中表示所述第二单词的语义的第二向量,进行学习;对所述第一向量以与所述第 ...
【技术特征摘要】
2015.06.17 JP 2015-1216701.一种语义信息生成方法,包括:取得包含第一文本数据和第二文本数据的第一文本语料库,所述第一文本数据包含第一单词、且是用自然语言来记述的第一文章的文本数据,所述第二文本数据包含应与所述第一单词区别语义的第二单词、且是第二单词分布与第一单词分布相似的第二文章的文本数据,所述第二单词分布表示所述第二文章中在所述第二单词之前以及之后的预定范围内出现的单词的种类和出现个数,所述第一单词分布表示所述第一文章中在所述第一单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;取得包含第三文本数据的第二文本语料库,所述第三文本数据包含作为与所述第一单词和所述第二单词中的至少一方相同的单词的第三单词、且是第三单词分布与所述第一单词分布不相似的第三文章的文本数据,所述第三单词分布表示所述第三文章中在所述第三单词之前以及之后的所述预定范围内出现的单词的种类和出现个数;基于所述第一文本语料库和所述第二文本语料库中的单词串的排列,通过对所述第一单词分配在预定维度的向量空间中表示所述第一单词的语义的第一向量,并对所述第二单词分配在所述向量空间中表示所述第二单词的语义的第二向量,进行学习;对所述第一向量以与所述第一单词相关联的方式进行存储,对在所述向量空间中与所述第一向量相距预定以上的距离的所述第二向量以与所述第二单词相关联的方式进行存储。2.根据权利要求1所述的方法,所述第二文本语料库包含所述第三单词和第四单词,所述第四单词是在自然语言的文本数据中不出现的人为创造的单词,在所述第三文本数据中,所述第三单词之前以及之后的所述预定范围内所包含的单词是所述第四单词。3.根据权利要求1所述的方法,所述第一文本数据和所述第二文本数据由第一语言的单词构成,在所述第三文本数据中,所述第三单词是所述第一语言的单词,所述第三单词之前以及之后的所述预定范围内所包含的单词是与所述第一语言不同的第二语言的单词。4.根据权利要求1所述的方法,所述第二单词是与所述第一单词相对的反义词。5.根据权利要求1所述的方法,所述第二单词是具有与所述第一单词相同的语义、且程度与该第一单词不同的单词。6.根据权利要求1所述的方法,所述第二单词是属于与所述第一单词相同的概念、且属性与该第一单词不同的单词。7.根据权利要求1所述的方法,所述学习使用神经网络来进行。8.根...
【专利技术属性】
技术研发人员:山上胜义,牛尾贵志,石井育规,
申请(专利权)人:松下知识产权经营株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。