【技术实现步骤摘要】
词向量构建方法、装置、电子设备及存储介质
本申请涉及大数据
,尤其涉及一种词向量构建方法、装置、电子设备及存储介质。
技术介绍
一词多义是自然语言处理中常见的现象和许多场景需要解决的难题,无论是中文或是英文,许多词语往往在不同的上下文中会呈现不同的语义。例如,在“最近苹果产量多水分充足”这类文本中“苹果”是一种水果,而在“苹果公司发布了最新版本的苹果手机”这类文本中“苹果”指的是手机品牌。目前主流的词向量模型(如word2vec模型等)在构造词向量时,通常一个词用唯一的向量化编码进行表示,导致在词向量构造阶段无法区分不同语境下的多义词,降低了后续进行自然语言处理的准确度。
技术实现思路
本申请实施例提供一种词向量构建方法、装置、电子设备及存储介质,通过融合表征局部上下文特征的局部词向量和表征分词所在文本的主题的概率分布的主题分布向量,从而构建更准确的词向量,实现多义词消歧。一方面,本申请一实施例提供了一种词向量构建方法,包括:对多个待处理文本进行分词处理,获得各个待处理文本中的分词; ...
【技术保护点】
1.一种词向量构建方法,其特征在于,包括:/n对多个待处理文本进行分词处理,获得各个待处理文本中的分词;/n基于各个分词所在的上下文,获得各个分词的局部词向量;/n基于各个分词所属主题在所述多个待处理文本中的概率分布,获取各个分词的主题分布向量;/n分别对各个分词的局部词向量和主题分布向量进行融合,获得各个分词的目标词向量。/n
【技术特征摘要】 【专利技术属性】
1.一种词向量构建方法,其特征在于,包括:
对多个待处理文本进行分词处理,获得各个待处理文本中的分词;
基于各个分词所在的上下文,获得各个分词的局部词向量;
基于各个分词所属主题在所述多个待处理文本中的概率分布,获取各个分词的主题分布向量;
分别对各个分词的局部词向量和主题分布向量进行融合,获得各个分词的目标词向量。
2.根据权利要求1所述的方法,其特征在于,所述基于各个分词所在的上下文,获得各个分词的局部词向量,具体包括:
将每个待处理文本划分为至少一个待处理句子;
从各个待处理句子中,确定出多个频繁序列模式以及每个频繁序列模式对应的支持度,其中,每个频繁序列模式包括至少一个分词且所述至少一个分词按在同一待处理句子中出现的先后顺序进行排列,所述支持度为包含对应的频繁序列模式的待处理句子的数量和待处理句子的句子总数的比值;
针对任一待处理句子中的任一分词,确定以所述任一分词为中心词的上下文窗口内包含的最长频繁序列模式,根据确定出的最长频繁序列模式,确定所述上下文窗口内各个分词的权重,并获得一个训练样本,所述训练样本中包括所述上下文窗口内各个分词的加权向量,所述加权向量为分词的随机初始向量和权重的乘积;
基于获得的训练样本,训练词向量模型;
基于已训练的词向量模型,获得各个分词的局部词向量。
3.根据权利要求2所述的方法,其特征在于,所述从各个待处理句子中,确定出多个频繁序列模式,具体包括:
删除各个待处理句子中支持度小于支持度阈值的分词,获得各个待处理句子对应的预处理句子,其中,任一分词对应的支持度为包含所述任一分词的待处理句子的数量与所述句子总数的比值;
将支持度不小于支持度阈值的分词确定为一项频繁序列模式;
针对任一i项频繁序列模式,进行如下操作:
将各个预处理句子中位于所述任一i项频繁序列模式之后的分词作为所述任一i项频繁序列模式的后缀文本;
将各个后缀文本中的各个分词分别添加到所述任一i项频繁序列模式之后,获得多个i+1项序列模式;
将支持度不小于支持度阈值的i+1项序列模式,确定为i+1项频繁序列模式,其中,i为不小于1的整数,任一i+1项序列模式的支持度为包含所述任一i+1项序列模式的后缀文本的数量与所述句子总数的比值。
4.根据权利要求3所述的方法,其特征在于,所述支持度阈值是基于预设的最小支持率和所述句子总数确定的。
5.根据权利要求2所述的方法,其特征在于,所述根据确定出的最长频繁序列模式,确定所述上下文窗口内各个分词的权重,具体包括:
将所述上下文窗口内属于所述最长频繁序列模式的分词的权重设为所述最长频繁序列模式的支持度;
将所述上下文窗口内不属于所述最长频繁序列模式的分词的权重设为预设权重,其中,所述预设权重小于任一频繁序列模式的支持度。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述基于获得的训练样本,训练词向量模型,具体包括:
将训练样本中的非中心词的加权向量分别与词向量模型中的输入权重矩阵相乘,获得各个非中心词的第一中间向量;
对各个非中心词的第一中间向量进行求和;
将求和结果与所述词向量模型中的输出权重矩阵相乘,获得第二中间向量;
基于所述第二中间向量,确定针对所述训练样本中的中心词的预测向量;
基于所述中心词的预测向量和所述中心词的加权向量的误差,更新所述输入权重矩阵和所述输出权重矩阵。
7.根据权利要求6所述的方法,其特征在于,所述基于已训练的词向量模型,获得各个分词的局部词向量,具体包括:
将各个待处理句子中的各个分词的随机初始向量分别与已训练的词向量模型中的输入权重矩阵相乘,获得各个分词的局部词向量。
8.根据权利要求7所述的方法,其特征在于,通过如下方式确定各个待处理句子中的各个分词的随机初始向量:
技术研发人员:刘志煌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。