词向量训练方法和装置制造方法及图纸

技术编号：15574275 阅读：77 留言：0更新日期：2017-06-12 02:53

本发明专利技术提供一种词向量训练方法和装置，其中词向量训练方法包括：获取新增词汇库，新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库，旧词汇库中的词汇对应有旧词向量；对新词汇库中的词汇进行初始化处理，使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量，新词汇库中属于新增词汇库中的词汇词向量为随机词向量；根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明专利技术提供的词向量训练方法和装置，减少了训练词向量时的计算量。

全部详细技术资料下载

【技术实现步骤摘要】
词向量训练方法和装置
本专利技术涉及机器学习技术，尤其涉及一种词向量训练方法和装置。
技术介绍
在机器学习技术中，为了使机器理解人类语言的含义，神经网络语言模型的词表示工具将人类语言中的每个词汇都转换成词向量的形式，使得计算机能够通过词向量学习到人类语言中每个词汇的含义。现有技术中，词表示工具通过学习词汇库中的所有的词汇得到各个词汇的词向量。采用现有技术，当词汇库中加入新的词汇后，由于每个词出现的频率发生了变化，需要重新学习新的词汇库中的所有的词汇，以得到各个词汇新的词向量，训练词向量时的计算量较大。
技术实现思路
本专利技术提供一种词向量训练方法和装置，减少了词向量训练时的计算量。本专利技术提供一种词向量训练方法，包括：获取新增词汇库，所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库，所述旧词汇库中的词汇对应有旧词向量；对所述新词汇库中的词汇进行初始化处理，使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量，所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量；根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。在本专利技术一实施例中，所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新，包括：获取第一词汇对应的预设目标函数，所述第一词汇为所述新词汇库中的词汇；根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理，得到所述第一词汇对应的词向量。在本专利技术一实施例中，所述获取第一词汇对应的预设目标函数，包括...
词向量训练方法和装置

【技术保护点】
一种词向量训练方法，其特征在于，包括：获取新增词汇库，所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库，所述旧词汇库中的词汇对应有旧词向量；对所述新词汇库中的词汇进行初始化处理，使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量，所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量；根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。

【技术特征摘要】
1.一种词向量训练方法，其特征在于，包括：获取新增词汇库，所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库，所述旧词汇库中的词汇对应有旧词向量；对所述新词汇库中的词汇进行初始化处理，使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量，所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量；根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新。2.根据权利要求1所述的方法，其特征在于，所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新，包括：获取第一词汇对应的预设目标函数，所述第一词汇为所述新词汇库中的词汇；根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理，得到所述第一词汇对应的词向量。3.根据权利要求2所述的方法，其特征在于，所述获取第一词汇对应的预设目标函数，包括：若所述第一词汇属于所述旧词汇库，则根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解，得到所述第一词汇对应的预设目标函数；若所述第一词汇属于所述新增词汇库，则所述第一词汇对应的预设目标函数为所述Ski-gram模型的原始目标函数。4.根据权利要求2所述的方法，其特征在于，所述获取所述第一词汇对应的预设目标函数，包括：若所述第一词汇属于所述旧词汇库，则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解，得到所述第一词汇对应的预设目标函数；若所述第一词汇属于所述新增词汇库，则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。5.根据权利要求3所述的方法，其特征在于，所述根据Ski-gram模型的原始目标函数对所述第一词汇进行因式分解，得到所述第一词汇对应的预设目标函数，包括：根据对所述第一词汇因式分解，其中，w表示所述第一词汇，W表示所述新词汇库，NEG(w)表示处理所述第一词汇w时生成的负样本子集，表示w的上下文，表示所述第一词汇w的目标函数，Context(w)表示所述对应的词汇库。6.根据权利要求4所述的方法，其特征在于，所述根据CBOW模型的原始目标函数对所述第一词汇进行因式分解，得到所述第一词汇对应的预设目标函数，包括：根据对所述第一词汇因式分解，其中，w表示所述第一词汇...

【专利技术属性】
技术研发人员：李建欣，刘垚鹏，彭浩，陈汉腾，张日崇，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人