词向量训练方法和装置制造方法及图纸

技术编号:15574275 阅读:77 留言:0更新日期:2017-06-12 02:53
本发明专利技术提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明专利技术提供的词向量训练方法和装置,减少了训练词向量时的计算量。

【技术实现步骤摘要】
词向量训练方法和装置
本专利技术涉及机器学习技术,尤其涉及一种词向量训练方法和装置。
技术介绍
在机器学习技术中,为了使机器理解人类语言的含义,神经网络语言模型的词表示工具将人类语言中的每个词汇都转换成词向量的形式,使得计算机能够通过词向量学习到人类语言中每个词汇的含义。现有技术中,词表示工具通过学习词汇库中的所有的词汇得到各个词汇的词向量。采用现有技术,当词汇库中加入新的词汇后,由于每个词出现的频率发生了变化,需要重新学习新的词汇库中的所有的词汇,以得到各个词汇新的词向量,训练词向量时的计算量较大。
技术实现思路
本专利技术提供一种词向量训练方法和装置,减少了词向量训练时的计算量。本专利技术提供一种词向量训练方法,包括:获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。在本专利技术一实施例中,所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新,包括:获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量。在本专利技术一实施例中,所述获取第一词汇对应的预设目标函数,包括:若所述第一词汇属于所述旧词汇库,则根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Ski-gram模型的原始目标函数。在本专利技术一实施例中,所述获取所述第一词汇对应的预设目标函数,包括:若所述第一词汇属于所述旧词汇库,则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。在本专利技术一实施例中,所述根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述新词汇库,NEG(w)表示处理所述第一词汇w时生成的负样本子集,表示w的上下文,l(w,u)表示所述第一词汇w的目标函数,Context(w)表示所述对应的词汇库。在本专利技术一实施例中,所述根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述新词汇库,NEG(w)表示处理所述第一词汇w时生成的负样本子集,l(w,u)表示所述第一词汇w的目标函数。在本专利技术一实施例中,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数v'(w)表示所述第一词汇的词向量,θu表示参数向量,η'表示学习率。在本专利技术一实施例中,所述根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量,包括:获取所述第一词汇在旧词汇库中的权重参数len(w)和所述第一词汇在所述新词汇库中的权重参数len'(w),获取D(u)=sgn(len'(w)-len(w)),其中,D为根据W构造的词典。D'为根据W'构造的词典,counter(w)表示w在新词汇库中出现的次数,当D(u)为-1时,通过随机梯度下降抵消所述第一词汇重复出现的贡献,当D(u)为1时,通过梯度上升来恢复所述第一词汇的噪声分布,并根据得到所述第一词汇对应的词向量,Lw(u)表示是否命中,参数表示所述第一词汇上下文中单词向量相加之和,v'(w)表示所述第一词汇的词向量,θu表示参数向量,η'表示学习率。本专利技术提供一种词向量训练装置,包括:获取模块,所述获取模块用于获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;初始化模块,所述初始化模块用于对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;更新模块,所述更新模块用于根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。在本专利技术一实施例中,所述更新模块具体用于,获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量。本专利技术提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本专利技术提供的词向量训练方法和装置,减少了训练词向量时的计算量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术词向量训练方法实施例一的流程示意图;图2为本专利技术词向量训练装置实施例一的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的本文档来自技高网...
词向量训练方法和装置

【技术保护点】
一种词向量训练方法,其特征在于,包括:获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。

【技术特征摘要】
1.一种词向量训练方法,其特征在于,包括:获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。2.根据权利要求1所述的方法,其特征在于,所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新,包括:获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量。3.根据权利要求2所述的方法,其特征在于,所述获取第一词汇对应的预设目标函数,包括:若所述第一词汇属于所述旧词汇库,则根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Ski-gram模型的原始目标函数。4.根据权利要求2所述的方法,其特征在于,所述获取所述第一词汇对应的预设目标函数,包括:若所述第一词汇属于所述旧词汇库,则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。5.根据权利要求3所述的方法,其特征在于,所述根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据对所述第一词汇因式分解,其中,w表示所述第一词汇,W表示所述新词汇库,NEG(w)表示处理所述第一词汇w时生成的负样本子集,表示w的上下文,表示所述第一词汇w的目标函数,Context(w)表示所述对应的词汇库。6.根据权利要求4所述的方法,其特征在于,所述根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数,包括:根据对所述第一词汇因式分解,其中,w表示所述第一词汇...

【专利技术属性】
技术研发人员:李建欣刘垚鹏彭浩陈汉腾张日崇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1