一种基于通道和空间维度的词向量训练方法技术

技术编号:23149957 阅读:34 留言:0更新日期:2020-01-18 13:48
本发明专利技术提供一种基于通道和空间维度的词向量训练方法,该方法包括:获取训练语料,建立训练语料库。获取训练预料库中的每个训练语料中每个字的拼接特征向量。根据每个字的拼接特征向量,提取每个字的上下文特征向量和通道结构特征向量并进行融合,得到每个字对应的refined特征向量。每个字对应的refined特征向量经过分类器,损失函数训练,最终生成每个字对应的词向量。本发明专利技术融合的特征更加丰富,且在变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量的基础上,增加了通过卷积块注意力模块在通道维度增加注意力机制提取每个字对应的通道结构特征向量,增强深度学习向量的语意表达能力。

A word vector training method based on channel and spatial dimension

【技术实现步骤摘要】
一种基于通道和空间维度的词向量训练方法
本专利技术属于计算机智能应用
,涉及一种基于通道和空间维度的词向量训练方法。
技术介绍
词向量是自然语言处理中非常常见的基础技术,主要是为了把词表示成适合计算机处理的方式。目前主要由传统的one-hotrepresentation独热模型,其词向量的长度为字典大小,每个维度对应一个字典里的每个词,除了这个词对应维度上的值是1,其他元素都是0。目前还有一种词向量就是基于矩阵的分布表示,主要以glove模型为代表,它主要是对“词-词”矩阵进行分解从而得到词表示的方法。目前另外一种词向量是通过学习语义信息,基于神经网络的分布表示的词向量N-gram模型,CBOW模型和Skip-gram模型,都是这种技术的典型代表,它们的中心思想都是通过上下文得到一个词出现的概率。这种方法考虑了上下文但是对于中文忽略了字形的信息。传统的one-hotrepresentation独热模型的缺点是,仅仅将词符号化,不包含任何语义信息,并且one-hot向量相似度为0。基于矩阵的分布表示词向量,这种方法的缺点是会出现很多词,会导致矩阵极其稀疏;另外需要手动去掉停用词,不然这些频繁出现的词也会影响矩阵分解的效果。而目前基于神经网络的分布表示的词向量,都是通过上下文得到一个词的向量,这种忽略了汉字本身的结构带来的信息。
技术实现思路
针对上述现有技术的不足,本专利技术提供了一种基于通道和空间维度的词向量训练方法。在汉字的结构里,字的偏旁是介于笔画和整字之间的基本结构单位。把汉字分解为偏旁可以使通用汉字的基本结构单位减到五、六百个,这在自然语言处理中会大大减少了中文信息处理的困难。本专利技术基于神经网络的模型,融合字的偏旁部首信息,然后用卷积神经网络学习出语义,这样不仅考虑了上下文信息,而且充分利用了汉字本身的包含的表义或表音信息,这会增强深度学习向量的语意表达能力。为实现上述技术目的,本专利技术的技术方案是:一种基于通道和空间维度的词向量训练方法,该方法包括:获取训练语料,建立训练语料库。获取训练预料库中的每个训练语料中每个字的拼接特征向量。根据每个字的拼接特征向量,提取每个字的上下文特征向量和通道结构特征向量并进行融合,得到每个字对应的refined特征向量。每个字对应的refined特征向量经过分类器,损失函数训练,最终生成每个字对应的词向量。其中,获取训练预料库中的每个训练语料中每个字的拼接特征向量,包括:a:对每个训练语料以字为单位逐字进行拆分,并采用随机初始化的方法进行初始化,得到对应的随机初始化字向量。b:对每个训练语料以字为单位逐字进行拆分,然后将各个字按偏旁笔画进行拆分,采用正太分布初始化方法初始化不同偏旁笔画的向量,然后将各个字对应的偏旁笔画向量加和得到另一种表达形式的字向量。c:对每个训练语料以连续的n个字为一个单位进行拆分,并采用随机初始化的方法进行初始化,得到对应的n元向量。d:将a、b和c步骤中得到的三种方式初始化的向量采用concat连接起来,得到每个训练语料中每个字的拼接特征向量。优选地,本专利技术中,提取每个字的上下文特征向量包括:将每个字的拼接特征向量用变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量。首先,根据每个字在对应训练语料中的位置信息,采用随机初始化的方法进行初始化,得到对应的初始化位置向量;然后,将每个字对应的初始化位置向量以及拼接特征向量量融合后作为变压编码块特征提取器的输入特征向量,通过变压编码块特征提取器提取得到每个字对应的上下文特征向量。优选地,本专利技术中,变压编码块特征提取器提取得到每个字对应的上下文特征向量,包括:输入特征向量一方面通过多头注意力机制求解该输入特征向量每个字的增强向量表示;另一方面该输入特征向量采用残差网络结构和多头注意力的输出先相加求和然后归一化,得到归一化后的向量;将归一化后的向量一方面经过前馈神经网络,另一方面归一化后的向量和前馈神经网络的输出再次采用残差网络结构相加求和然后归一化,输出的即为每个字对应的上下文特征向量。优选地,本专利技术中,提取每个字的通道结构特征向量,包括:将每个字的拼接特征向量通过卷积块注意力模块在通道维度增加注意力机制提取得到的特征向量也即每个字对应的通道结构特征向量。优选地,本专利技术提取每个字的通道结构特征向量,包括:将每个字对应的拼接特征向量作为卷积块注意力模块的输入特征向量;输入特征向量先经过通道注意力模型得到对应的中间特征向量;中间特征向量再经过空间注意力模型得到对应的通道结构特征向量。其中:在通道注意力模型中,先用输入特征向量在空间维度求平均,然后在空间维度求最大,然后将两者相加经过sigmoid函数得到每个通道不同的比重,再用输入特征向量乘以通道的权重即得到对应的中间特征向量。其中:在空间注意力模型中,中间特征向量在通道上求平均,然后在通道上求最大值,然后将两者相加经过sigmoid函数得到每个字不同的比重,再用中间特征乘以字的权重即得到每个字对应的通道结构特征向量。另一方面,本专利技术提供一种基于通道和空间维度的词向量训练装置,包括:训练语料库建立单元,用于获取训练语料,保存在训练语料库中。拼接特征向量构建单元,用于获取训练预料库中的每个训练语料中每个字的拼接特征向量。refined特征向量构建单元,用于根据每个字的拼接特征向量,提取每个字的上下文特征向量和通道结构特征向量并进行融合,得到每个字对应的refined特征向量。词向量训练单元,用于对每个字对应的refined特征向量经过分类器,损失函数训练,以最终生成每个字对应的词向量。本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于通道和空间维度的词向量训练方法的步骤。本专利技术还提供一种计算机可读存储介质,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。可读存储介质其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于通道和空间维度的词向量训练方法的步骤。采用本专利技术可以达到以下技术效果:和现有技术相比,不仅仅融合了字的偏旁部首特征还包含了n元向量的特征,特征更加丰富,并且在变压编码块(transformerblock)特征提取器的基础上,增加了卷积块注意力模型来提取特征,增强深度学习向量的语意表达能力。附图说明图1是基于通道和空间维度的词向量训练方法的流程图。图2是变压编码块(transformerblock)特征提取器的结构示意图。图3是卷积块注意力模块(cbamattentionblock)的结构示意图。图4是基于通道和空间维度的词向量训练装置的结构示意图。本专利技术目的的实现、功能特点及优点将结合本文档来自技高网...

【技术保护点】
1.一种基于通道和空间维度的词向量训练方法,其特征在于,该方法包括:/n获取训练语料,建立训练语料库;/n获取训练预料库中的每个训练语料中每个字的拼接特征向量;/n根据每个字的拼接特征向量,提取每个字的上下文特征向量和通道结构特征向量并进行融合,得到每个字对应的refined特征向量;/n每个字对应的refined特征向量经过分类器,损失函数训练,最终生成每个字对应的词向量。/n

【技术特征摘要】
1.一种基于通道和空间维度的词向量训练方法,其特征在于,该方法包括:
获取训练语料,建立训练语料库;
获取训练预料库中的每个训练语料中每个字的拼接特征向量;
根据每个字的拼接特征向量,提取每个字的上下文特征向量和通道结构特征向量并进行融合,得到每个字对应的refined特征向量;
每个字对应的refined特征向量经过分类器,损失函数训练,最终生成每个字对应的词向量。


2.根据权利要求1所述基于通道和空间维度的词向量训练方法,其特征在于,获取训练预料库中的每个训练语料中每个字的拼接特征向量,包括:
a:对每个训练语料以字为单位逐字进行拆分,并采用随机初始化的方法进行初始化,得到对应的随机初始化字向量;
b:对每个训练语料以字为单位逐字进行拆分,然后将各个字按偏旁笔画进行拆分,采用正太分布初始化方法初始化不同偏旁笔画的向量,然后将各个字对应的偏旁笔画向量加和得到另一种表达形式的字向量;
c:对每个训练语料以连续的n个字为一个单位进行拆分,并采用随机初始化的方法进行初始化,得到对应的n元向量;
d:将a、b和c步骤中得到的三种方式初始化的向量采用concat连接起来,得到每个训练语料中每个字的拼接特征向量。


3.根据权利要求1或2所述基于通道和空间维度的词向量训练方法,其特征在于,提取每个字的上下文特征向量包括:将每个字的拼接特征向量用变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量。


4.根据权利要求3所述基于通道和空间维度的词向量训练方法,其特征在于,提取每个字的上下文特征向量包括:
首先,根据每个字在对应训练语料中的位置信息,采用随机初始化的方法进行初始化,得到对应的初始化位置向量;
然后,将每个字对应的初始化位置向量以及拼接特征向量量融合后作为变压编码块特征提取器的输入特征向量,通过变压编码块特征提取器提取得到每个字对应的上下文特征向量。


5.根据权利要求4所述基于通道和空间维度的词向量训练方法,其特征在于,变压编码块特征提取器提取得到每个字对应的上下文特征向量,包括:
输入特征向量一方面通过多头注意力机制求解该输入特征向量每个字的增强向量表示;另一方面该输入特征向量采用残差网络结构和多头注意力的输出先相加求和然后归一化,得到归一化后的向量;将归一化后的向量一方面经过前馈神经网络,另一方面归一化后的向量和前馈神经网络的输出再次采用残差...

【专利技术属性】
技术研发人员:柴志伟赵路路
申请(专利权)人:宁波深擎信息科技有限公司上海深擎信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1