词嵌入模型的训练方法及装置制造方法及图纸

技术编号：20221898 阅读：20 留言：0更新日期：2019-01-28 20:21

本申请实施例公开一种词嵌入模型的训练方法及装置，该方法包括：利用词嵌入矩阵，将训练样本的输入词向量化表示为第一向量；根据所述第一向量得到预测词；利用所述预测词，以及所述输入词所对应的真实词，更新所述输入词在词嵌入矩阵中所对应的参数；获取目标词的近义词集，所述目标词包括所述输入词或所述真实词；更新所述近义词集中的所有近义词在词嵌入矩阵中所对应的参数，以缩短所述近义词集中每一个近义词与所述目标词之间的距离。通过这样的方法不断训练，使每一个目标词的近义词集中的近义词都朝着该目标词聚拢，从而将一个词的近义词与其反义词区分开来，以此减轻词嵌入的极性问题，同时也不会导致整个词向量空间紊乱。

全部详细技术资料下载

【技术实现步骤摘要】
词嵌入模型的训练方法及装置
本专利技术涉及自然语言处理
，具体涉及一种词嵌入模型的训练方法及装置。
技术介绍
在自然语言处理(NaturalLanguageProcessing，NLP)领域，词的表示方法有独热表示(one-hotrepresentation)和分布式表示(distributedrepresentation)两大类，其中，分布式表示是基于分布假说(DistributionalHypothesis)，它的核心思想由两部分组成：一、选择一种方式描述上下文；二、选择一种模型来刻画某个词(即中心词)与其上下文之间的关系。根据建模的不同，词的分布式表示主要可以分为三类：基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。其中，基于神经网络的分布式表示一般也被称为词嵌入(wordembedding)，主要是通过神经网络技术对中心词的上下文，以及上下文与中心词之间的关系进行建模。词嵌入是一种低维实数向量，例如[0.792,-0.177,-0.107,0.109,-0.542,…]，其维度可以是50维、100维等。连续词袋模型(ContinousBagofWordsModel，CBOW)和Skip-gram模型是Mikolov等人提出的神经网络语言模型，可以用来训练以得到语料库中每一个词的词嵌入。CBOW是统计语言模型的一种，请参考图1，其主要思想是根据中心词(w(t))的上下文，即中心词前面的C个词(例如w(t-2)、w(t-1)等)以及后面的C个词(例如w(t+1)、w(t+2)等)，来计算中心词的概率。与CBOW相反，请参考图2，S...

【技术保护点】
1.一种词嵌入模型的训练方法，其特征在于，包括以下步骤：利用词嵌入矩阵，将训练样本的输入词向量化表示为第一向量；根据所述第一向量得到预测词；利用所述预测词，以及所述输入词所对应的真实词，更新所述输入词在词嵌入矩阵中所对应的参数；获取目标词的近义词集，所述目标词包括所述输入词或所述真实词；更新所述近义词集中的所有近义词在词嵌入矩阵中所对应的参数，以缩短所述近义词集中每一个近义词与所述目标词之间的距离。

【技术特征摘要】
1.一种词嵌入模型的训练方法，其特征在于，包括以下步骤：利用词嵌入矩阵，将训练样本的输入词向量化表示为第一向量；根据所述第一向量得到预测词；利用所述预测词，以及所述输入词所对应的真实词，更新所述输入词在词嵌入矩阵中所对应的参数；获取目标词的近义词集，所述目标词包括所述输入词或所述真实词；更新所述近义词集中的所有近义词在词嵌入矩阵中所对应的参数，以缩短所述近义词集中每一个近义词与所述目标词之间的距离。2.根据权利要求1所述的词嵌入模型的训练方法，其特征在于，所述词嵌入模型的目标函数为：L(H)＝L+α·J(wt,wsyn)，其中，L为第一目标函数，表示CBOW模型或Skip模型的目标函数；wt表示目标词，wsyn表示目标词的近义词集；J(wt,wsyn)为第二目标函数，表示目标词的近义词集中每一个近义词与所述目标词之间的距离；α表示影响因子。3.根据权利要求2所述的词嵌入模型的训练方法，其特征在于，其中，wt表示目标词，wi表示所述近义词集中的一个近义词；J(wt,wi)表示近义词集中的一个近义词wi与目标词wt之间的距离。4.根据权利要求3所述的词嵌入模型的训练方法，其特征在于，更新所述近义词集中的所有近义词在词嵌入矩阵中所对应的参数的步骤，包括：wij(new)＝wij+η·Gradient(wij)，其中，wij(new)表示近义词集中的近义词wi的第j维在更新后的值；η表示第二学习率；Gredient(wij)表示近义词集中的近义词wi的第j维的更新梯度；表示目标词wt与一个近义词wi之间的距离值，对wi的第j维的偏导数；wij表示近义词wi的第j维在更新之前的值；wtj表示目标词的第j维的值。5.根据权利要求4所述的词嵌入模型的训练方法，其特征在于，第二学习率η通过以下方式得到：η＝α·μ，其中，α表示影响因子；μ表示第一学习率；μ0表示第一学习率预设初始值；train_w...

【专利技术属性】
技术研发人员：杨凯程，李健铨，刘小康，陈玮，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人