一种基于字词联合训练的中文词向量生成方法技术

技术编号:16427797 阅读:27 留言:0更新日期:2017-10-21 22:31
本发明专利技术公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明专利技术提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。

A Chinese word vector generation method based on word combination training

The invention discloses a Chinese word vector generation method based on word combination training, which belongs to the technical field of Natural Language Processing. The Chinese character information in the word is used as an important feature, and combined with context words and Chinese characters, the Chinese word vector representation is jointly trained. On the basis of the word vector model based on the word itself, we introduce the word itself to form the Chinese character information, and predict the target word based on the context word while predicting the target word. The model of word word itself based on joint training model were used. The effectiveness and robustness of the training vector comparison of the two models, found Chinese word vector words joint training model to generate more in line with the Chinese semantic characteristics, and the robustness is better. The present invention provides a new method for generating Chinese word vectors, and provides a new solution for the generation and application of Chinese word vectors.

【技术实现步骤摘要】
一种基于字词联合训练的中文词向量生成方法
本专利技术属于自然语言处理
,涉及一种基于字词联合训练的的中文词向量生成方法。
技术介绍
近年来,自然语言处理技术应用到了我们身边的各个方面,文本中的词表示研究是自然语言处理领域中最基础的研究。同时,词表示是数据表示的一种,数据表示作为机器学习中前期预备工作,它的好坏对机器学习模型的性能有很大的影响。针对中文自然语言处理领域面临的问题,我们希望计算机可以直接的自动的从大规模无标注的文本数据中学习得到相应的文本表示,同时词语和文本中的语义信息也希望可以通过这个表示体现出来。Word2Vec、GloVe等常规词嵌入模型并不能满足中文的语言特性,针对中文而言,性能更好,语义信息捕获更准确的词向量模型有待于研究人员进一步探索。
技术实现思路
本专利技术的目的主要针对现有研究的一些不足之处,提出一种基于字词联合训练的的中文词向量生成方法,即ECWE模型,模型结合内部汉字和外部上下文及汉字一同获得高质量的中文词嵌入。ECWE通过一个简单但通用的方法将内部字同外部字结合起来一同学习中文词向量。我们利用内部字和外部上下文字使得原本孤立的字之间有了更多的联系,模型通过对加强对汉字的有效建模,使得汉字之间以及汉字同词之间的关系得到加强,同时丰富了词的上下文信息,从而使得词表示蕴含更多的语义信息,提升了词表示的效果。本专利技术的技术方案:一种基于字词联合训练的的中文词向量生成方法,步骤如下:(1)中文文本数据处理阶段词表示向量的生成,需要大的语料库支持,语料库可以自行构建,也可以通过资金购买,拥有语料库后,首先我们要对语料库进行分词处理。目前有很多分词工具可以使用,此步骤不作为本方法权利特征。(2)中文词表示向量生成阶段对于中文来说,一个词常常由几个汉字组成,而且含有丰富的内部含义。一个词的词义也常常和组成它的汉字有关。例如,中文词“科技”,他的词义可以由语料中的上下文学习得到,同时我们可以看出来,他的词义可以由组成他的汉字“科”和“技”推断得到,因此我们得到一个想法,利用汉字信息来完善中文词嵌入模型,学习中文词表示向量。在初始阶段,我们随机生成词语、汉字的向量表示w,c,维度大小为100,每个维度值是一个0到1之间的随机小数。2.1)基于上下文词预测目标词对于给定句子D={x1,…,xM},M表示句子长度,xj表示句子中的第j个词语,通过一个固定窗口内(窗口大小为K)的上下文词来预测目标词,考虑到中文特性,该步骤特征在于,将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示;特征在于,对于每一个汉字,根据位置不同,他都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头,中间和结尾。上下文词的向量表示公式如下:wherej=w-K,…w-1,w+1,…w+K其中,wj表示xj的本身词向量,Nj表示xj中的汉字个数,ck表示词xj中第k个汉字的向量表示;通过上面的公式我们得到上下文词的向量表示xw,由此预测目标词xi,其目标是最大化目标词在上下文词上的条件概率函数:其中M表示句子的长度,K表示窗口大小。2.2)基于上下文字预测目标词对于句子D={x1,…,xM},首先遍历该句子,查表将每个词中的汉字映射成向量,除去目标词;通过一个固定窗口内的上下文词来预测目标词,考虑到中文特性,该步骤特征在于将上下文词中内部字的向量表示加和平均值作为上下文字的向量表示;特征在于,对于每一个汉字,根据位置不同,他都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头,中间和结尾。上下文字的向量表示公式如下:wherej=w-K,…w-1,w+1,…w+K通过上式得到上下文字的向量表示cw,由此预测目标词xi,其目标是最大化目标词在上下文字上的条件概率函数:其中M表示句子的长度,K表示窗口大小。2.3)基于字词联合预测目标词在上述步骤中我们得到了基于字和词来预测目标词的目标函数,在该步骤,对于句子D={x1,…,xM},特征在于,将基于上下文词来预测目标词的目标函数同基于上下文字来预测目标词的目标函数结合起来,联合训练字和词;就是在优化上下文对目标词的条件概率的同时,优化上下文词中各个汉字对目标词的条件概率:其中,M表示句子的长度,W表示词语字典,w表示目标词,即上文中的xi,Context(w)表示w的上下文词语,即上文中的xw,Circum(w)表示w的上下文中的汉字,即上文中的cw,β是一个0到1之间的小数,表示基于汉字建模的比例;2.4)迭代更新为了降低计算复杂度,该步骤特征在于,通过负采样方法来优化计算,具体来说就是用下面的公式来计算条件概率:上式中NEG(w)表示负采样集,负采样大小设为5,Lw(u)是一个采样u的标签,当u是目标词w时,Lw(u)=1,否则Lw(u)=0,xw是目标词w上下文词的向量表示,cw是目标词w上下文字的向量表示,θu是参数的向量表示;最后采用随机梯度下降算法来求解目标函数,具体的更新表达式为:模型迭代训练结束后,参数词向量表示集w就是我们模型生成的中文词向量表示。本专利技术的有益效果在于,公开了一种基于字词联合训练的的中文词向量生成方法,将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本专利技术提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。附图说明图1是本专利技术方法的主要框架图。图2是本专利技术方法在语义相似度任务上的评价结果,ECWE为本专利技术模型简称,由此图可确定本专利技术生成的中文词向量蕴含更准确的语义信息。图3是本专利技术方法在类比推理任务上的评价结果,由此图可确定本专利技术生成的中文词向量蕴含更准确的语义信息。图4是本专利技术方法在文本分类任务上的评价结果,由此图可确定本专利技术生成的中文词向量更适合中文自言语言处理任务。图5是本专利技术方法在不同语料大小上的评价结果,比较出本专利技术更具鲁棒性。图6是本专利技术方法在不同汉字建模比例上的评价结果,比较出本专利技术更具鲁棒性。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的具体实施方式作进一步的详细描述。本专利技术提供了一种基于字词联合训练的的中文词向量生成方法,该方法包括:(1)中文文本数据处理阶段词表示向量的生成,需要大的语料库支持,语料库可以自行构建,也可以通过资金购买,这里我们以维基百科中文数据集为例。1.1)选取维基百科中文数据集作为训练语料,维基百科中文数据集覆盖领域广,这个语料有1.82亿个中文词语,词语字典大小是45.7万,汉字词典大小是9000。对维基百科中文数据集进预处理,维基百科的中文数据是繁简混杂的,里面包含大陆简体、中国台湾繁体、港澳繁体等多种不同的数据。有时候在一篇文章的不同段落间也会使用不同的繁简字。我们使用了开源项目opencc将语料中的繁体字转化为简体字。之所以要去除繁体字,是考虑到归本文档来自技高网...
一种基于字词联合训练的中文词向量生成方法

【技术保护点】
一种基于字词联合训练的中文词向量生成方法,其特征在于,将中文词中的汉字信息作为重要特征,结合上下文词和汉字联合训练中文词向量表示,步骤如下:(1)中文文本数据处理阶段词表示向量的生成基于语料库,首先对语料库进行分词处理;(2)中文词表示向量生成阶段对于中文来说,一个词由几个汉字组成,词义和组成它的汉字有关;本方法利用汉字信息来完善中文词嵌入模型,学习中文词表示向量;在初始阶段,随机生成词语、汉字的向量表示w,c,维度大小为100,每个维度值是一个0到1之间的随机小数;2.1)基于上下文词预测目标词对于给定句子D={x1,…,xM},M表示句子长度,xj表示句子中的第j个词语,通过一个固定窗口内的上下文词来预测目标词,窗口大小为K,考虑到中文特性,将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示;对于每一个汉字,根据位置不同,都会有三个不同的向量表示(c

【技术特征摘要】
1.一种基于字词联合训练的中文词向量生成方法,其特征在于,将中文词中的汉字信息作为重要特征,结合上下文词和汉字联合训练中文词向量表示,步骤如下:(1)中文文本数据处理阶段词表示向量的生成基于语料库,首先对语料库进行分词处理;(2)中文词表示向量生成阶段对于中文来说,一个词由几个汉字组成,词义和组成它的汉字有关;本方法利用汉字信息来完善中文词嵌入模型,学习中文词表示向量;在初始阶段,随机生成词语、汉字的向量表示w,c,维度大小为100,每个维度值是一个0到1之间的随机小数;2.1)基于上下文词预测目标词对于给定句子D={x1,…,xM},M表示句子长度,xj表示句子中的第j个词语,通过一个固定窗口内的上下文词来预测目标词,窗口大小为K,考虑到中文特性,将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示;对于每一个汉字,根据位置不同,都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头、中间和结尾;上下文词的向量表示公式如下:wherej=w-K,…w-1,w+1,…w+K其中,wj表示xj的本身词向量,Nj表示xj中的汉字个数,ck表示词xj中第k个汉字的向量表示;通过上面的公式得到上下文词的向量表示xw,由此预测目标词xi,其目标是最大化目标词在上下文词上的条件概率函数:其中M表示句子长度,K表示窗口大小;2.2)基于上下文字预测目标词对于句子D={x1,…,xM},首先遍历该句子,查表将每个词中的汉字映射成向量,除去目标词;通过一个固定窗口内的上下文词来预测目标词,将上下文词中内部字的向量表示加和平均值作为上下文字的向量表示;对于每一个汉字,根据位置不同,都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头、中间和结尾;上下文字的向量表示公式如下:wherej=w-K,…w-1,w+1,…w+K通过上式得到上下文字的向量表示cw,由此预测目标词xi,其目标是最大化目标词在上下文字上的条件概率函数:

【专利技术属性】
技术研发人员:张宪超刘世柯梁文新刘馨月
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1