【技术实现步骤摘要】
词向量的获取方法和装置、存储介质及电子装置
本专利技术涉及互联网领域,具体而言,涉及一种词向量的获取方法和装置、存储介质及电子装置。
技术介绍
相关技术中的互联网经常有新词出现,所以词向量需要经常的重新训练更新,但是已有的词向量的学习方法,每运行一次,对于相同的词语学出的向量与上一次有很大不同,非常不稳定。例如在相关技术中的金融应用场景,要求模型尽可能的稳定,词向量,作为金融模型的输入特征,如果特征不稳定,必然导致模型不稳定。以及对于描述用户画像的场景时,如年龄、性别、学历等,如果上个月和这个月预测结果不一样,是不合理的,需要尽量避免,而词向量作为一个重要的输入特征,词向量的稳定性直接影响模型的稳定性。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种词向量的获取方法和装置、存储介质及电子装置,以至少解决相关技术中由于数据更新导致的计算的词向量不稳定的技术问题。根据本专利技术实施例的一个方面,提供了一种词向量的获取方法,包括:获取待识别的第一语料;将所述第一语料 ...
【技术保护点】
1.一种词向量的获取方法,其特征在于,包括:/n获取待识别的第一语料;/n将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;/n对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;/n获取所述多个目标词语中每个目标词语对应的目标词向量,及所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;/n根据所述权重及所述目标词向量,确定与所述目标语料对应的 ...
【技术特征摘要】
1.一种词向量的获取方法,其特征在于,包括:
获取待识别的第一语料;
将所述第一语料合并到第二语料中,得到目标语料,其中,所述第二语料中包括锚点词集合,所述锚点词集合中锚点词的词频大于第一阈值,每个所述锚点词将分别生成对应的锚点词向量;
对所述目标语料进行切词,得到多个目标词语,其中,所述多个目标词语包括:所述锚点词及非锚点词;
获取所述多个目标词语中每个目标词语对应的目标词向量,及所述多个目标词语中两两目标词语之间的权重,其中,所述目标词向量包括:所述锚点词向量,及为所述非锚点词随机生成的候选非锚点词向量;
根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值;
在所述损失值小于第二阈值的情况下,确定所述候选非锚点词向量为与所述非锚点词匹配的目标非锚点词向量。
2.根据权利要求1所述的方法,其特征在于,在根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值之后,还包括:
在所述损失值大于所述第二阈值的情况下,更新为所述非锚点词随机生成的所述候选非锚点词向量,得到更新后的所述候选非锚点词向量;
利用更新后的所述候选非锚点词向量和所述锚点词向量,及所述权重,更新所述损失值。
3.根据权利要求1所述的方法,其特征在于,获取所述多个目标词语中两两目标词语之间的权重包括:
获取每个所述目标词语的出现次数,及所述多个目标词语中两两目标词语为相邻词语的相邻次数;
根据所述出现次数及所述相邻次数确定所述权重。
4.根据权利要求3所述的方法,其特征在于,根据所述出现次数及所述相邻次数确定所述权重,包括:
通过以下公式确定所述目标语料中目标词语wi和目标词语wj之间的所述权重:
其中:所述为所述目标词语wi和所述目标词语wj作为前后连续相邻词语在一起出现的次数;所述所述其中,为所述目标词语wi出现的次数,所述为所述wj出现的次数,所述N是所述目标语料中所述多个目标词语出现的总次数;
其中,所述g(cos距离(vi,vj))是所述目标词语wi对应的目标词向量vi和所述目标词语wj对应的目标词向量vj之间的余弦距离,其中,在所述vi,vj任一个不存在时,所述g(cos距离(vi,vj))=1。
5.根据权利要求1所述的方法,其特征在于,根据所述权重及所述目标词向量,确定与所述目标语料对应的损失值,包括:
将每两个相邻词语的所述权重,和该两个相邻词语的所述目标词向量的余弦距离作为目标损失函数的输入,得到所述目标损失函数输出的所述损失值,其中,所述目标损失函数与所述权重呈负相关,所述目标损失函数与所述余弦距离呈负相关。
...
【专利技术属性】
技术研发人员:黄引刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。