【技术实现步骤摘要】
词向量获取模型生成方法、装置及词向量获取方法、装置
本文涉及信息处理技术,尤指一种词向量获取模型生成方法、装置及词向量获取方法、装置。
技术介绍
在自然语言处理过程中,首先需要做的就是对文本进行自然语言向量化(embedding),然后通过机器学习的方式对自然语言进行计算,以获得自然语言的内在语义关系,从而使计算机可以理解自然语言。相关技术中,word2vec是一种常用的向量化方法,其具体包括两种方法:CBOW方法和skip-gram方法。其中,CBOW方法是用周围词预测中心词,利用中心词的预测结果情况不断地去调整周围词的向量,当训练完成之后,每个词都会作为中心词对周围词的词向量进行调整,从而获得文本所有词的词向量;skip-gram方法是用中心词来预测周围词,利用周围词的预测结果情况使用梯度下降优化算法不断的调整中心词的词向量,最终所有的文本遍历完毕之后,得到了文本所有词的词向量。然而,word2vec的两种方法都只是从单方向上进行语义的关联性表示,Skip-gram是由中心词决定周围词的语义关联性 ...
【技术保护点】
1.一种词向量获取模型生成方法,其特征在于,包括:/n获取样本语料文本;/n将所述样本语料文本作为输入训练预先构建的生成对抗网络模型,得到用于获取词向量的词向量获取模型;其中,所述生成对抗网络模型包括:利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。/n
【技术特征摘要】
1.一种词向量获取模型生成方法,其特征在于,包括:
获取样本语料文本;
将所述样本语料文本作为输入训练预先构建的生成对抗网络模型,得到用于获取词向量的词向量获取模型;其中,所述生成对抗网络模型包括:利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。
2.根据权利要求1所述的方法,其特征在于,所述将样本语料文本作为输入训练预先构建的生成对抗网络模型,得到用于获取词向量的词向量获取模型,包括:
基于所述样本语料文本,并分别利用所述第一词向量预测模型和所述第二词向量预测模型进行词向量预测,得到第一词向量集合和第二词向量集合;
计算相同词在所述第一词向量集合和所述第二词向量集合中对应的词向量之间的相似度;
基于所述第一词向量集合、所述第二词向量集合和计算得到的相似度训练所述生成对抗网络模型,得到所述词向量获取模型。
3.根据权利要求2所述的方法,其特征在于,所述基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型,得到词向量获取模型,包括:
基于所述第一词向量集合、所述第二词向量集合和计算得到的相似度,根据预先设定的损失函数,利用梯度下降算法对所述生成对抗网络模型进行迭代训练、调整所述生成对抗网络模型中的参数,直到所述损失函数的损失值收敛,得到所述词向量获取模型。
4.根据权利要求2所述的方法,其特征在于,所述基于样本语料文本,并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测,得到第一词向量集合和第二词向量集合,包括:
利用所述第一词向量预测模型,并基于所述样本语料文本的周围词预测中心词的词向量,并将预测得到的中心词的词向量与所基于的周围词的词向量进行拼接,以得到第一词向量集合;
利用所述第二词向量预测模型,并基于所述样本语料文本的中心词预测周围词的词向量,并将预测得到的周围词的词向量与所基于的中心词的词向量进行拼接,以得到第二词向量集合。
5.根据权利要求4所述的方法,其特征在于,组成所述中心词的字个数为第一预设个数;所述周围词包括:位于所述中心词前的第一部分周围词和位于所...
【专利技术属性】
技术研发人员:于皓,张杰,李犇,罗华刚,袁杰,邓礼志,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。