【技术实现步骤摘要】
一种词向量训练方法和服务器
本专利技术涉及计算机
,尤其涉及一种词向量训练方法和服务器。
技术介绍
SG(Skip-Gram)模型是目前通用的词向量学习模型,在实际的工业环境中得到了广泛使用。在大规模语料的基础上,SG模型可以得到质量较高的词向量模型,在配合使用负采样(negativesampling)计算技术的时候,可以高效快速地计算词向量,因此可以同时保证计算效率和结果的质量。现有技术中,SG模型可以通过建立一个词与其周边其他词的关系。具体地,在一个给定的语料中,针对一个词序列片段,SG模型会针对其中每一对词学习它们之间的关系,即预测在给定一个词作为输入的情况下,输出其它词的概率。最终通过优化这些概率值来更新每个词的向量。虽然目前的SG模型可以有效训练词向量,但是现有技术依然存在一些相应的缺点。例如,SG模型对每个目标词的上下文窗口内的任何词语都同等对待,因此目标词中的上下文结构信息并不能反映在目标词的向量中,一个词周围的所有词对于该词的重要程度是同等的,因此通过SG模型学习得到的词向量是无法体现上下文结构信息,通过现有技术得到的词向量对于目标词的位置信息不敏感,无法有效适用于自然语言处理的语义和句法任务。
技术实现思路
本专利技术实施例提供了一种词向量训练方法和服务器,用于将方向信息集成到词向量中,可以满足自然语言处理的语义和句法任务的需求。为解决上述技术问题,本专利技术实施例提供以下技术方案:第一方面,本专利技术实施例提供一种词向量训练方法,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对 ...
【技术保护点】
1.一种词向量训练方法,其特征在于,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。
【技术特征摘要】
1.一种词向量训练方法,其特征在于,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始输出词向量生成目标输出词向量,包括:根据所述上下文词语出现在所述单词的上文或者下文生成方向向量,所述方向向量用于指示所述上下文词语出现在所述单词的上文或者下文;通过所述原始输出词向量和所述方向向量获取到所述目标输出词向量,所述目标输出词向量包括:所述原始输出词向量和所述方向向量。3.根据权利要求2所述的方法,其特征在于,所述使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练,包括:根据所述输入词向量和所述方向向量获取交互函数计算结果,并根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新;根据所述输入词向量和所述原始输出词向量获取条件概率计算结果,并根据所述条件概率计算结果对所述输入词向量和所述原始输出词向量进行迭代更新;根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计。4.根据权利要求3所述的方法,其特征在于,所述根据所述输入词向量和所述方向向量获取交互函数计算结果,包括:通过如下方式计算所述输入词向量和所述方向向量之间的交互函数,其中,其中,所述g(ωt+i,ωt)表示所述交互函数计算结果,所述δωt+i表示所述上下文词语为ωt+i时的方向向量,所述vωt表示所述单词为ωt时的输入向量,所述V表示语料库中的所有词语集合。5.根据权利要求3所述的方法,其特征在于,所述根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新,包括:通过如下方式对所述输入词向量和所述方向向量进行迭代更新,其中,其中,所述表示更新后的所述单词为ωt时的输入向量,所述表示更新前的输入向量,所述γ表示学习率,所述δωt+i表示所述上下文词语为ωt+i时的方向向量,所述vωt表示所述单词为ωt时的输入向量,所述σ(vωtTδωt+i)表示所述上下文词语相对于所述单词的位置方向预测值,所述D表示所述上下文词语相对于所述单词的位置方向标记值,所述表示更新后的所述上下文词语为ωt+i时的方向向量,所述表示更新前的所述上下文词语为ωt+i时的方向向量。6.根据权利要求5所述的方法,其特征在于,所述位置方向标记值D满足如下条件:其中,当i<0时,表示所述上下文词语相对于所述单词的位置方向为上文,当i>0时,表示所述上下文词语相对于所述单词的位置方向为下文。7.根据权利要求3至6中任一项所述的方法,其特征在于,所述根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计:通过如下方式计算全局对数最大似然估计f(ωt+i,ωt),其中,f(ωt+i,ωt)=p(ωt+iωt)+g(ωt+i,ωt),其中,所述g(ωt+i,ωt)表示所述交互函数计算结果,所述p(ωt+iωt)表示所述条件概率计算结果;通过如下方式计算所述单词到所述上下文词语的概率的联合对数似然估计LSG,其中,其中,所述V表示语料库中的所有词语集合,所述上下文词语为ωt+i,所述单词为ωt,所述c表示上下文窗口大小。8.根据权利要求1所述的方法,其特征在于,所述根据所述原始输出词向量生成目标输出词向量,包括:根据所述上下文词语出现在所述单词的上文,从所述原始输出词向量中获取到上文输出词向量;根据所述上下文词语出现...
【专利技术属性】
技术研发人员:宋彦,史树明,张海松,李菁,俞栋,张潼,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。