This specification embodiment discloses a cluster based word vector processing method, device, and equipment. The scheme includes: cluster includes server cluster and working machine cluster. Each working machine in the working machine cluster reads part of the corpus in parallel, extracts words and context words from the read language, from the server cluster. The server gets the corresponding word vector and trains, and updates the word vector of the same word preserved before the training, according to the training results of the word vectors of the same word by one or more working machines.
【技术实现步骤摘要】
基于集群的词向量处理方法、装置以及设备
本说明书涉及计算机软件
,尤其涉及基于集群的词向量处理方法、装置以及设备。
技术介绍
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。在现有技术中,常见的用于生成词向量的算法比如包括谷歌公司的单词向量算法、微软公司的深度神经网络算法等,往往在单机上运行。基于现有技术,需要高效的大规模词向量训练方案。
技术实现思路
本说明书实施例提供基于集群的词向量处理方法、装置以及设备,用以解决如下技术问题:需要高效的大规模词向量训练方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种基于集群的词向量处理方法,所述集群包括多个工作机,所述方法包括:各所述工作机分别执行:获取从部分语料中提取的词及其上下文词;获取所述词及其上下文词的词向量;根据所述词及其上下文词,训练对应的词向量;根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。本说明书实施例提供的一种基于集 ...
【技术保护点】
一种基于集群的词向量处理方法,所述集群包括多个工作机,所述方法包括:各所述工作机分别执行:获取从部分语料中提取的词及其上下文词;获取所述词及其上下文词的词向量;根据所述词及其上下文词,训练对应的词向量;根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。
【技术特征摘要】
1.一种基于集群的词向量处理方法,所述集群包括多个工作机,所述方法包括:各所述工作机分别执行:获取从部分语料中提取的词及其上下文词;获取所述词及其上下文词的词向量;根据所述词及其上下文词,训练对应的词向量;根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。2.如权利要求1所述的方法,所述获取从部分语料中提取的词及其上下文词前,所述方法还包括:各所述工作机分布式地读取得到部分语料;所述获取从部分语料中提取的词及其上下文词,具体包括:根据自己所读取得到的语料,建立相应的词对,所述词对包含当前词及其上下词。3.如权利要求2所述的方法,所述集群还包括多个服务器,所述获取所述词及其上下文词的词向量,具体包括:根据自己建立的各所述词对,提取得到当前词集合和上下文词集合;从所述服务器获取所述当前词集合和上下文词集合包含的词的词向量。4.如权利要求2所述的方法,所述根据所述词及其上下文词,训练对应的词向量,具体包括:根据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应的词向量。5.如权利要求4所述的方法,所述根据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应的词向量,具体包括:对自己所读取得到的语料进行遍历;根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新。6.如权利要求5所述的方法,所述根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新,具体包括:按照以下公式,对遍历的当前词及其上下文词的词向量进行迭代更新:其中,w表示当前词,c表示w的上下文词,c'表示负样例词,表示w的词向量,表示c的词向量,和表示第t个工作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表示w的上下文词集合,α表示学习率,σ为Sigmoid函数。7.如权利要求6所述的方法,所述对遍历的当前词及其上下文词的词向量进行迭代更新,具体包括:所述工作机上的一个或者多个线程以异步计算且不加锁的方式,所述对遍历的当前词及其上下文词的词向量进行迭代更新。8.如权利要求3所述的方法,所述根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新,具体包括:所述服务器获取一个或者多个所述工作机对相同词的词向量分别的训练结果;根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,并根据所述向量增量值对所述相同词的词向量进行更新。9.如权利要求8所述的方法,所述根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,具体包括:按照以下公式,计算得到向量增量值:其中,w表示当前词,c表示w的上下文词,表示w的词向量,表示c的词向量,和表示第i个工作机上迭代更新结果,λi(w)表示w在第i个工作机上出现的次数,表示服务器训练前保存的10.一种基于集群的词向量处理装置,所述集群包括多个工作机,所述装置位于所述集群,包括整合更新模块、位于所述工作机的训练模块;各所述工作机的训练模块分别执行:获取从部分语料中提取的词及其上下文词;获取所述词及其上下文词的词向量;根据所述词及其上下文词,训练对应的词向量;所述整合更新模块,根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同词的词向量进行更新。11.如权利要求10所述...
【专利技术属性】
技术研发人员:曹绍升,杨新星,周俊,李小龙,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。