The embodiment of this application discloses a training method and device for a word embedding model, which includes: vectorizing the input words of training samples into the first vector by using the word embedding matrix; obtaining the predictive words according to the first vector; updating the parameters of the input words in the word embedding matrix by using the predictive words and the real words corresponding to the input words; The target word includes the input word or the real word, and updates the corresponding parameters of at least one synonym in the word embedding matrix to shorten the distance between the at least one synonym and the target word. Through continuous training, at least one synonym in each target word's synonym set moves toward the target word, which makes it easier to distinguish a synonym from its antonym, thus alleviating the polarity of word embedding and avoiding the disorder of the whole word vector space.
【技术实现步骤摘要】
词嵌入模型的训练方法及装置
本专利技术涉及自然语言处理
,具体涉及一种词嵌入模型的训练方法及装置。
技术介绍
在自然语言处理(NaturalLanguageProcessing,NLP)领域,词的表示方法有独热表示(one-hotrepresentation)和分布式表示(distributedrepresentation)两大类,其中,分布式表示是基于分布假说(DistributionalHypothesis),它的核心思想由两部分组成:一、选择一种方式描述上下文;二、选择一种模型来刻画某个词(即中心词)与其上下文之间的关系。根据建模的不同,词的分布式表示主要可以分为三类:基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。其中,基于神经网络的分布式表示一般也被称为词嵌入(wordembedding),主要是通过神经网络技术对中心词的上下文,以及上下文与中心词之间的关系进行建模。词嵌入是一种低维实数向量,例如[0.792,-0.177,-0.107,0.109,-0.542,…],其维度可以是50维、100维等。连续词袋模型(ContinousBagofWordsModel,CBOW)和Skip-gram模型是Mikolov等人提出的神经网络语言模型,可以用来训练以得到语料库中每一个词的词嵌入。CBOW是统计语言模型的一种,请参考图1,其主要思想是根据中心词(w(t))的上下文,即中心词前面的C个词(例如w(t-2)、w(t-1)等)以及后面的C个词(例如w(t+1)、w(t+2)等),来计算中心词的概率。与CBOW相反,请参考图2,S ...
【技术保护点】
1.一种词嵌入模型的训练方法,其特征在于,包括以下步骤:利用词嵌入矩阵,将训练样本的输入词向量化表示为第一向量;根据所述第一向量得到预测词;利用所述预测词,以及所述输入词所对应的真实词,更新所述输入词在词嵌入矩阵中所对应的参数;获取目标词的近义词集,所述目标词包括所述输入词或所述真实词;更新所述近义词集中的至少一个近义词在词嵌入矩阵中对应的参数,以缩短所述至少一个近义词与所述目标词之间的距离;其中,所述至少一个近义词中包括至少一个远距离近义词,所述远距离近义词与所述目标词之间的距离大于或等于所述目标词的至少一个反义词与所述目标词之间的距离。
【技术特征摘要】
1.一种词嵌入模型的训练方法,其特征在于,包括以下步骤:利用词嵌入矩阵,将训练样本的输入词向量化表示为第一向量;根据所述第一向量得到预测词;利用所述预测词,以及所述输入词所对应的真实词,更新所述输入词在词嵌入矩阵中所对应的参数;获取目标词的近义词集,所述目标词包括所述输入词或所述真实词;更新所述近义词集中的至少一个近义词在词嵌入矩阵中对应的参数,以缩短所述至少一个近义词与所述目标词之间的距离;其中,所述至少一个近义词中包括至少一个远距离近义词,所述远距离近义词与所述目标词之间的距离大于或等于所述目标词的至少一个反义词与所述目标词之间的距离。2.根据权利要求1所述的词嵌入模型的训练方法,其特征在于,所述词嵌入模型的目标函数为:L(H)=L+α·J(wt,wsyn),其中,L为第一目标函数,表示CBOW模型或Skip模型的目标函数;wt表示目标词,wsyn表示目标词的近义词集;J(wt,wsyn)为第二目标函数,表示所述至少一个近义词与所述目标词之间的距离;α表示影响因子。3.根据权利要求2所述的词嵌入模型的训练方法,其特征在于,其中,wt表示目标词,wi表示所述至少一个近义词中的一个近义词;J(wt,wi)表示所述至少一个近义词中的一个近义词wi与目标词wt之间的距离。4.根据权利要求3所述的词嵌入模型的训练方法,其特征在于,更新所述近义词集中的至少一个近义词在词嵌入矩阵中对应的参数的步骤,包括:wij(new)=wij+η·Gradient(wij),其中,wij(new)表示近义词wi的第j维在更新后的值;η表示第二学习率;Gradient(wij)表示近义词wi的第j维的更新梯度;表示目标词wt与近义词wi之间的距离值,对wi的第j维的偏导数;wij表示近义词wi的第j维在更新之前的值;wtj表示目标词的第j维的值。5.根据权利要求4所述的词嵌入模型的训练方法,其特征在于,第二学习率η通过以下方式得到:η=α·μ,其中,α表示影响因子;μ表示第一学习率;μ0表示第一学习率预设初始值;train_word...
【专利技术属性】
技术研发人员:李健铨,刘小康,陈玮,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。