一种基于字词联合训练的中文词向量生成方法技术

技术编号：16427797 阅读：27 留言：0更新日期：2017-10-21 22:31

本发明专利技术公开了一种基于字词联合训练的中文词向量生成方法，属于自然语言处理技术领域。将词中的汉字信息作为重要特征，结合上下文词和汉字，联合训练中文的词向量表示。在基于词本身的词向量模型的基础上，我们通过引入词本身的组成汉字信息，在基于上下文词预测目标词的同时，基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用，比较两个模型的训练词向量的有效性和鲁棒性，发现字词联合训练模型生成的中文词向量更符合中文语义特性，同时鲁棒性也更好。本发明专利技术提供了中文词向量生成的一种新方法，为中文词向量的生成和应用工作提供了一种新的解决方案。

A Chinese word vector generation method based on word combination training

The invention discloses a Chinese word vector generation method based on word combination training, which belongs to the technical field of Natural Language Processing. The Chinese character information in the word is used as an important feature, and combined with context words and Chinese characters, the Chinese word vector representation is jointly trained. On the basis of the word vector model based on the word itself, we introduce the word itself to form the Chinese character information, and predict the target word based on the context word while predicting the target word. The model of word word itself based on joint training model were used. The effectiveness and robustness of the training vector comparison of the two models, found Chinese word vector words joint training model to generate more in line with the Chinese semantic characteristics, and the robustness is better. The present invention provides a new method for generating Chinese word vectors, and provides a new solution for the generation and application of Chinese word vectors.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字词联合训练的中文词向量生成方法
本专利技术属于自然语言处理
，涉及一种基于字词联合训练的的中文词向量生成方法。
技术介绍
近年来，自然语言处理技术应用到了我们身边的各个方面，文本中的词表示研究是自然语言处理领域中最基础的研究。同时，词表示是数据表示的一种，数据表示作为机器学习中前期预备工作，它的好坏对机器学习模型的性能有很大的影响。针对中文自然语言处理领域面临的问题，我们希望计算机可以直接的自动的从大规模无标注的文本数据中学习得到相应的文本表示，同时词语和文本中的语义信息也希望可以通过这个表示体现出来。Word2Vec、GloVe等常规词嵌入模型并不能满足中文的语言特性，针对中文而言，性能更好，语义信息捕获更准确的词向量模型有待于研究人员进一步探索。
技术实现思路
本专利技术的目的主要针对现有研究的一些不足之处，提出一种基于字词联合训练的的中文词向量生成方法，即ECWE模型，模型结合内部汉字和外部上下文及汉字一同获得高质量的中文词嵌入。ECWE通过一个简单但通用的方法将内部字同外部字结合起来一同学习中文词向量。我们利用内部字和外部上下文字使得原本孤立的字之间有了更多的联系，模型通过对加强对汉字的有效建模，使得汉字之间以及汉字同词之间的关系得到加强，同时丰富了词的上下文信息，从而使得词表示蕴含更多的语义信息，提升了词表示的效果。本专利技术的技术方案：一种基于字词联合训练的的中文词向量生成方法，步骤如下：(1)中文文本数据处理阶段词表示向量的生成，需要大的语料库支持，语料库可以自行构建，也可以通过资金购买，拥有语料库后，首先我们要对语料库进行分词处...
一种基于字词联合训练的中文词向量生成方法

【技术保护点】
一种基于字词联合训练的中文词向量生成方法，其特征在于，将中文词中的汉字信息作为重要特征，结合上下文词和汉字联合训练中文词向量表示，步骤如下：(1)中文文本数据处理阶段词表示向量的生成基于语料库，首先对语料库进行分词处理；(2)中文词表示向量生成阶段对于中文来说，一个词由几个汉字组成，词义和组成它的汉字有关；本方法利用汉字信息来完善中文词嵌入模型，学习中文词表示向量；在初始阶段，随机生成词语、汉字的向量表示w，c，维度大小为100，每个维度值是一个0到1之间的随机小数；2.1)基于上下文词预测目标词对于给定句子D＝{x1,…,xM}，M表示句子长度，xj表示句子中的第j个词语，通过一个固定窗口内的上下文词来预测目标词，窗口大小为K，考虑到中文特性，将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示；对于每一个汉字，根据位置不同，都会有三个不同的向量表示(c

【技术特征摘要】
1.一种基于字词联合训练的中文词向量生成方法，其特征在于，将中文词中的汉字信息作为重要特征，结合上下文词和汉字联合训练中文词向量表示，步骤如下：(1)中文文本数据处理阶段词表示向量的生成基于语料库，首先对语料库进行分词处理；(2)中文词表示向量生成阶段对于中文来说，一个词由几个汉字组成，词义和组成它的汉字有关；本方法利用汉字信息来完善中文词嵌入模型，学习中文词表示向量；在初始阶段，随机生成词语、汉字的向量表示w，c，维度大小为100，每个维度值是一个0到1之间的随机小数；2.1)基于上下文词预测目标词对于给定句子D＝{x1,…,xM}，M表示句子长度，xj表示句子中的第j个词语，通过一个固定窗口内的上下文词来预测目标词，窗口大小为K，考虑到中文特性，将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示；对于每一个汉字，根据位置不同，都会有三个不同的向量表示(cB,cM,cE)，分别表示他们位于词语当中的开头、中间和结尾；上下文词的向量表示公式如下：wherej＝w-K,…w-1,w+1,…w+K其中，wj表示xj的本身词向量，Nj表示xj中的汉字个数，ck表示词xj中第k个汉字的向量表示；通过上面的公式得到上下文词的向量表示xw，由此预测目标词xi，其目标是最大化目标词在上下文词上的条件概率函数：其中M表示句子长度，K表示窗口大小；2.2)基于上下文字预测目标词对于句子D＝{x1,…,xM}，首先遍历该句子，查表将每个词中的汉字映射成向量，除去目标词；通过一个固定窗口内的上下文词来预测目标词，将上下文词中内部字的向量表示加和平均值作为上下文字的向量表示；对于每一个汉字，根据位置不同，都会有三个不同的向量表示(cB,cM,cE)，分别表示他们位于词语当中的开头、中间和结尾；上下文字的向量表示公式如下：wherej＝w-K,…w-1,w+1,…w+K通过上式得到上下文字的向量表示cw，由此预测目标词xi，其目标是最大化目标词在上下文字上的条件概率函数：

【专利技术属性】
技术研发人员：张宪超，刘世柯，梁文新，刘馨月，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人