一种词向量训练方法和服务器技术

技术编号:22330337 阅读:36 留言:0更新日期:2019-10-19 12:19
本发明专利技术实施例公开了一种词向量训练方法和服务器,用于将方向信息集成到词向量中,可以满足自然语言处理的语义和句法任务的需求。本发明专利技术实施例提供一种词向量训练方法,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。

【技术实现步骤摘要】
一种词向量训练方法和服务器
本专利技术涉及计算机
,尤其涉及一种词向量训练方法和服务器。
技术介绍
SG(Skip-Gram)模型是目前通用的词向量学习模型,在实际的工业环境中得到了广泛使用。在大规模语料的基础上,SG模型可以得到质量较高的词向量模型,在配合使用负采样(negativesampling)计算技术的时候,可以高效快速地计算词向量,因此可以同时保证计算效率和结果的质量。现有技术中,SG模型可以通过建立一个词与其周边其他词的关系。具体地,在一个给定的语料中,针对一个词序列片段,SG模型会针对其中每一对词学习它们之间的关系,即预测在给定一个词作为输入的情况下,输出其它词的概率。最终通过优化这些概率值来更新每个词的向量。虽然目前的SG模型可以有效训练词向量,但是现有技术依然存在一些相应的缺点。例如,SG模型对每个目标词的上下文窗口内的任何词语都同等对待,因此目标词中的上下文结构信息并不能反映在目标词的向量中,一个词周围的所有词对于该词的重要程度是同等的,因此通过SG模型学习得到的词向量是无法体现上下文结构信息,通过现有技术得到的词向量对于目标词的位置信息不敏感,无法有效适用于自然语言处理的语义和句法任务。
技术实现思路
本专利技术实施例提供了一种词向量训练方法和服务器,用于将方向信息集成到词向量中,可以满足自然语言处理的语义和句法任务的需求。为解决上述技术问题,本专利技术实施例提供以下技术方案:第一方面,本专利技术实施例提供一种词向量训练方法,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。第二方面,本专利技术实施例还提供一种服务器,包括:输入词向量获取模块,用于根据训练样本文本中的单词获取对应的输入词向量;输出词向量获取模块,用于根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;输出词向量重配置模块,用于根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;模型训练模块,用于使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。在第二方面中,服务器的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤,详见前述对第一方面以及各种可能的实现方式中的说明。第三方面,本专利技术实施例提供一种服务器,该服务器包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得服务器执行如前述第一方面中任一项的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。第五方面,本专利技术实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。从以上技术方案可以看出,本专利技术实施例具有以下优点:在本专利技术实施例中,首先根据训练样本文本中的单词获取对应的输入词向量,根据训练样本文本中与单词对应的上下文词语获取对应的原始输出词向量,接下来根据原始输出词向量生成目标输出词向量,目标输出词向量携带有用于指示上下文词语相对于单词的位置方向的方向信息,使用输出词向量和目标输出词向量对词向量学习模型进行训练。由于本专利技术实施例中通过分别对输入词在不同位置方向上的上下文建模,将上下文词语的结构信息融入词向量学习中,因此通过该词向量模型学习得到的词向量可以体现上下文结构信息,通过本专利技术实施例提供的词向量学习模型得到的词向量可以适用于自然语言处理的各类任务,尤其是语义和句法相关任务。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种词向量训练方法的流程方框示意图;图2为本专利技术实施例提供的词向量训练方法的一种应用场景示意图;图3为本专利技术实施例提供的词向量学习模型为SG模型的示意图;图4为本专利技术实施例提供的联合优化的示意图;图5为本专利技术实施例提供的词向量学习模型为SSG模型的示意图;图6-a为本专利技术实施例提供的一种服务器的组成结构示意图;图6-b为本专利技术实施例提供的一种输出词向量重配置模块的组成结构示意图;图6-c为本专利技术实施例提供的一种模型训练模块的组成结构示意图;图6-d为本专利技术实施例提供的另一种输出词向量重配置模块的组成结构示意图;图7为本专利技术实施例提供的词向量训练方法应用于服务器的组成结构示意图。具体实施方式本专利技术实施例提供了一种词向量训练方法和服务器,用于将方向信息集成到词向量中,可以满足自然语言处理的语义和句法任务的需求。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。本专利技术实施例中提供的词向量训练方法使用上下文的方向信息实现词向量学习模型的训练,该词向量学习可以是上下文带有方向指向的SG(Skip-Gram)模型,为便于描述,将本专利技术实施例中采用的上下文带有方向指向的SG模型称为DSG(DirectionalSkip-Gram)模型,本专利技术实施例提供的DSG模型可以帮助学习词向量。其中,SG模型是使用词到上下文的关系建立模型,本专利技术实施例提出的DSG模型,考虑到词语的序列信息在任何语言中都是非常重要的指示信号,针对所有的输入和输出词对(pair),通过在输出词向量中引入方向信息来指示目标词在输入词的左右方向(及上下方向),加强了目标词对输入词的指导作用,由此习得更好的词向量。本专利技术实施例中通过分别对目标词的上文和下文建模,将文本的结构信息融入词向量学习中。因此通过DSG模型学习得到的词向量可以体现上下文结构信息,通过上下文的方向信息可以加强当前词向量的语义表达能力,并同时增加句法能力,因此通过本专利技术实施例得到的词向量可以适用于自然语言处理的语义和句法任务。本专利技术实施例中提供的词向量训练方法,具体可以应用于词向量学习场景中,该方法可应用于服务器,服务器可包括处理器和存储器,其中,通过服务器中的存储装置来存储输入词向量、目标输出词向量,该目标输出词向量携带有用于指示上下文词语相对于单词的位置方向的方向信息。例如通过服务器的内存来存储输入词向量、目标输出词向量,处理器可以从存储器读取程序,来执行本专利技术实施例提供的词向量训练方法。请本文档来自技高网...

【技术保护点】
1.一种词向量训练方法,其特征在于,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。

【技术特征摘要】
1.一种词向量训练方法,其特征在于,包括:根据训练样本文本中的单词获取对应的输入词向量;根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量;根据所述原始输出词向量生成目标输出词向量,所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息;使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始输出词向量生成目标输出词向量,包括:根据所述上下文词语出现在所述单词的上文或者下文生成方向向量,所述方向向量用于指示所述上下文词语出现在所述单词的上文或者下文;通过所述原始输出词向量和所述方向向量获取到所述目标输出词向量,所述目标输出词向量包括:所述原始输出词向量和所述方向向量。3.根据权利要求2所述的方法,其特征在于,所述使用所述输出词向量和所述目标输出词向量对词向量学习模型进行训练,包括:根据所述输入词向量和所述方向向量获取交互函数计算结果,并根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新;根据所述输入词向量和所述原始输出词向量获取条件概率计算结果,并根据所述条件概率计算结果对所述输入词向量和所述原始输出词向量进行迭代更新;根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计。4.根据权利要求3所述的方法,其特征在于,所述根据所述输入词向量和所述方向向量获取交互函数计算结果,包括:通过如下方式计算所述输入词向量和所述方向向量之间的交互函数,其中,其中,所述g(ωt+i,ωt)表示所述交互函数计算结果,所述δωt+i表示所述上下文词语为ωt+i时的方向向量,所述vωt表示所述单词为ωt时的输入向量,所述V表示语料库中的所有词语集合。5.根据权利要求3所述的方法,其特征在于,所述根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新,包括:通过如下方式对所述输入词向量和所述方向向量进行迭代更新,其中,其中,所述表示更新后的所述单词为ωt时的输入向量,所述表示更新前的输入向量,所述γ表示学习率,所述δωt+i表示所述上下文词语为ωt+i时的方向向量,所述vωt表示所述单词为ωt时的输入向量,所述σ(vωtTδωt+i)表示所述上下文词语相对于所述单词的位置方向预测值,所述D表示所述上下文词语相对于所述单词的位置方向标记值,所述表示更新后的所述上下文词语为ωt+i时的方向向量,所述表示更新前的所述上下文词语为ωt+i时的方向向量。6.根据权利要求5所述的方法,其特征在于,所述位置方向标记值D满足如下条件:其中,当i<0时,表示所述上下文词语相对于所述单词的位置方向为上文,当i>0时,表示所述上下文词语相对于所述单词的位置方向为下文。7.根据权利要求3至6中任一项所述的方法,其特征在于,所述根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计:通过如下方式计算全局对数最大似然估计f(ωt+i,ωt),其中,f(ωt+i,ωt)=p(ωt+iωt)+g(ωt+i,ωt),其中,所述g(ωt+i,ωt)表示所述交互函数计算结果,所述p(ωt+iωt)表示所述条件概率计算结果;通过如下方式计算所述单词到所述上下文词语的概率的联合对数似然估计LSG,其中,其中,所述V表示语料库中的所有词语集合,所述上下文词语为ωt+i,所述单词为ωt,所述c表示上下文窗口大小。8.根据权利要求1所述的方法,其特征在于,所述根据所述原始输出词向量生成目标输出词向量,包括:根据所述上下文词语出现在所述单词的上文,从所述原始输出词向量中获取到上文输出词向量;根据所述上下文词语出现...

【专利技术属性】
技术研发人员:宋彦史树明张海松李菁俞栋张潼
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1