预训练词向量生成方法、系统、电子设备及存储介质技术方案

技术编号：31825285 阅读：24 留言：0更新日期：2022-01-12 12:51

本发明专利技术提出一种预训练词向量生成方法、系统、电子设备及存储介质，其方法技术方案包括数据集处理步骤，收集一数据集，对所述数据集进行预处理，将所述数据集中的原始文本数据变换为数字表示；文本向量生成步骤，建立一向量矩阵，根据所述数字表示在所述向量矩阵中取相应的向量；隐藏向量生成步骤，将中心词窗口大小范围内的所有的所述向量经过一隐藏层，得到隐藏向量；输出向量计算步骤，将所述隐藏向量通过线性层，计算得到中心词CBOW的输出向量；词向量生成步骤，根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q，并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。本申请解决了现有方法词向量表达能力有限的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
预训练词向量生成方法、系统、电子设备及存储介质

[0001]本专利技术属于语言处理
，尤其涉及一种预训练词向量生成方法、系统、电子设备及存储介质。

技术介绍

[0002]目前主要的词向量主要有传统的神经网络预训练模型包括：FastText、Word2Vec、GLoVe，基于自注意力机制的预训练词向量模型包括：Transformer、Bert、ERNIE等。而传统的神经网络预训练模型模型结构较为简单、网络深度较浅，学习得到词向量的特征空间有限、词向量表达能力有限。Bert等基于自注意力机制的词向量模型虽然解决了长距离信息衰减的问题但是对词汇所处的具体语境信息重视不足。在命名实体识别、自然语言理解等任务中语境信息对任务的完成具有重要的意义，在词向量生成的阶段需要充分地考虑词汇所处的语境中的语境信息对该词汇的词向量表示的影响，增加词向量模型的语义丰富度。
[0003]在传统的transformer模型的自注意力机制中的Q、K、V矩阵都是通过全连接层映射得来的，没有考虑到上下文信息，尤其在初始化阶段矩阵的数据分布是随机生成的，不仅不符合自然语言的特点而且增加了模型训练难度、降低了收敛速度。

技术实现思路

[0004]本申请实施例提供了一种预训练词向量生成方法、系统、电子设备及存储介质，以至少解决现有方法词向量表达能力有限的问题。
[0005]第一方面，本申请实施例提供了一种预训练词向量生成方法，包括：数据集处理步骤，收集一数据集，对所述数据集进行预处理，将所述数据集中的原始文本数据变换为...

【技术保护点】

【技术特征摘要】
1.一种预训练词向量生成方法，其特征在于，包括：数据集处理步骤，收集一数据集，对所述数据集进行预处理，将所述数据集中的原始文本数据变换为数字表示；文本向量生成步骤，建立一向量矩阵，根据所述数字表示在所述向量矩阵中取相应的向量；隐藏向量生成步骤，将中心词窗口大小范围内的所有的所述向量经过一隐藏层，得到隐藏向量；输出向量计算步骤，将所述隐藏向量通过线性层，计算得到中心词CBOW的输出向量；词向量生成步骤，根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q，并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。2.根据权利要求1所述的预训练词向量生成方法，其特征在于，所述数据集处理步骤进一步包括：所述预处理包括对所述数据集中所述原始文本数据的字进行实体标注；将进行所述预处理的数据集进行词典构建，根据所述词典将所述原始文本数据变换为所述数字表示。3.根据权利要求1所述的预训练词向量生成方法，其特征在于，所述词向量生成步骤进一步包括：将所述输出向量按位置排序拼接为所述矩阵K。4.根据权利要求3所述的预训练词向量生成方法，其特征在于，所述词向量生成步骤进一步包括：复制所述矩阵K得到自注意力机制中的所述矩阵V，并进一步将所述数字表示输入至所述线性层中得到所述自注意力机制中的所述矩阵Q。5.一种预训练词向量生成系统，其特征在于，包括：数据集处理模块，收集一数据集，对所述数据集进行预处理，将所述数据集中的原始文本数据变换为数字表示；文本向量生成模块，建立一向量矩阵，...

【专利技术属性】
技术研发人员：刘伟硕，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人