一种基于通道和空间维度的词向量训练方法技术

技术编号：23149957 阅读：34 留言：0更新日期：2020-01-18 13:48

本发明专利技术提供一种基于通道和空间维度的词向量训练方法，该方法包括：获取训练语料，建立训练语料库。获取训练预料库中的每个训练语料中每个字的拼接特征向量。根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量。每个字对应的refined特征向量经过分类器，损失函数训练，最终生成每个字对应的词向量。本发明专利技术融合的特征更加丰富，且在变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量的基础上，增加了通过卷积块注意力模块在通道维度增加注意力机制提取每个字对应的通道结构特征向量，增强深度学习向量的语意表达能力。

A word vector training method based on channel and spatial dimension

全部详细技术资料下载

【技术实现步骤摘要】
一种基于通道和空间维度的词向量训练方法
本专利技术属于计算机智能应用
，涉及一种基于通道和空间维度的词向量训练方法。
技术介绍
词向量是自然语言处理中非常常见的基础技术，主要是为了把词表示成适合计算机处理的方式。目前主要由传统的one-hotrepresentation独热模型，其词向量的长度为字典大小，每个维度对应一个字典里的每个词，除了这个词对应维度上的值是1，其他元素都是0。目前还有一种词向量就是基于矩阵的分布表示，主要以glove模型为代表，它主要是对“词-词”矩阵进行分解从而得到词表示的方法。目前另外一种词向量是通过学习语义信息，基于神经网络的分布表示的词向量N-gram模型，CBOW模型和Skip-gram模型，都是这种技术的典型代表，它们的中心思想都是通过上下文得到一个词出现的概率。这种方法考虑了上下文但是对于中文忽略了字形的信息。传统的one-hotrepresentation独热模型的缺点是，仅仅将词符号化，不包含任何语义信息，并且one-hot向量相似度为0。基于矩阵的分布表示词向量，这种方法的缺点是会出现很多词，会导致矩阵极其稀疏；另外需要手动去掉停用词，不然这些频繁出现的词也会影响矩阵分解的效果。而目前基于神经网络的分布表示的词向量，都是通过上下文得到一个词的向量，这种忽略了汉字本身的结构带来的信息。
技术实现思路
针对上述现有技术的不足，本专利技术提供了一种基于通道和空间维度的词向量训练方法。在汉字的结构里，字的偏旁是...

【技术保护点】
1.一种基于通道和空间维度的词向量训练方法，其特征在于，该方法包括：/n获取训练语料，建立训练语料库；/n获取训练预料库中的每个训练语料中每个字的拼接特征向量；/n根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量；/n每个字对应的refined特征向量经过分类器，损失函数训练，最终生成每个字对应的词向量。/n

【技术特征摘要】
1.一种基于通道和空间维度的词向量训练方法，其特征在于，该方法包括：
获取训练语料，建立训练语料库；
获取训练预料库中的每个训练语料中每个字的拼接特征向量；
根据每个字的拼接特征向量，提取每个字的上下文特征向量和通道结构特征向量并进行融合，得到每个字对应的refined特征向量；
每个字对应的refined特征向量经过分类器，损失函数训练，最终生成每个字对应的词向量。

2.根据权利要求1所述基于通道和空间维度的词向量训练方法，其特征在于，获取训练预料库中的每个训练语料中每个字的拼接特征向量，包括：
a：对每个训练语料以字为单位逐字进行拆分，并采用随机初始化的方法进行初始化，得到对应的随机初始化字向量；
b：对每个训练语料以字为单位逐字进行拆分，然后将各个字按偏旁笔画进行拆分，采用正太分布初始化方法初始化不同偏旁笔画的向量，然后将各个字对应的偏旁笔画向量加和得到另一种表达形式的字向量；
c：对每个训练语料以连续的n个字为一个单位进行拆分，并采用随机初始化的方法进行初始化，得到对应的n元向量；
d：将a、b和c步骤中得到的三种方式初始化的向量采用concat连接起来，得到每个训练语料中每个字的拼接特征向量。

3.根据权利要求1或2所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的上下文特征向量包括：将每个字的拼接特征向量用变压编码块特征提取器提取深层特征向量即为每个字对应的上下文特征向量。

4.根据权利要求3所述基于通道和空间维度的词向量训练方法，其特征在于，提取每个字的上下文特征向量包括：
首先，根据每个字在对应训练语料中的位置信息，采用随机初始化的方法进行初始化，得到对应的初始化位置向量；
然后，将每个字对应的初始化位置向量以及拼接特征向量量融合后作为变压编码块特征提取器的输入特征向量，通过变压编码块特征提取器提取得到每个字对应的上下文特征向量。

5.根据权利要求4所述基于通道和空间维度的词向量训练方法，其特征在于，变压编码块特征提取器提取得到每个字对应的上下文特征向量，包括：
输入特征向量一方面通过多头注意力机制求解该输入特征向量每个字的增强向量表示；另一方面该输入特征向量采用残差网络结构和多头注意力的输出先相加求和然后归一化，得到归一化后的向量；将归一化后的向量一方面经过前馈神经网络，另一方面归一化后的向量和前馈神经网络的输出再次采用残差...

【专利技术属性】
技术研发人员：柴志伟，赵路路，
申请(专利权)人：宁波深擎信息科技有限公司，上海深擎信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人