预训练词向量生成方法、系统、电子设备及存储介质技术方案

技术编号:31825285 阅读:24 留言:0更新日期:2022-01-12 12:51
本发明专利技术提出一种预训练词向量生成方法、系统、电子设备及存储介质,其方法技术方案包括数据集处理步骤,收集一数据集,对所述数据集进行预处理,将所述数据集中的原始文本数据变换为数字表示;文本向量生成步骤,建立一向量矩阵,根据所述数字表示在所述向量矩阵中取相应的向量;隐藏向量生成步骤,将中心词窗口大小范围内的所有的所述向量经过一隐藏层,得到隐藏向量;输出向量计算步骤,将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;词向量生成步骤,根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q,并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。本申请解决了现有方法词向量表达能力有限的问题。的问题。的问题。

【技术实现步骤摘要】
预训练词向量生成方法、系统、电子设备及存储介质


[0001]本专利技术属于语言处理
,尤其涉及一种预训练词向量生成方法、系统、电子设备及存储介质。

技术介绍

[0002]目前主要的词向量主要有传统的神经网络预训练模型包括:FastText、Word2Vec、GLoVe,基于自注意力机制的预训练词向量模型包括:Transformer、Bert、ERNIE等。而传统的神经网络预训练模型模型结构较为简单、网络深度较浅,学习得到词向量的特征空间有限、词向量表达能力有限。Bert等基于自注意力机制的词向量模型虽然解决了长距离信息衰减的问题但是对词汇所处的具体语境信息重视不足。在命名实体识别、自然语言理解等任务中语境信息对任务的完成具有重要的意义,在词向量生成的阶段需要充分地考虑词汇所处的语境中的语境信息对该词汇的词向量表示的影响,增加词向量模型的语义丰富度。
[0003]在传统的transformer模型的自注意力机制中的Q、K、V矩阵都是通过全连接层映射得来的,没有考虑到上下文信息,尤其在初始化阶段矩阵的数据分布是随机生成的,不仅不符合自然语言的特点而且增加了模型训练难度、降低了收敛速度。

技术实现思路

[0004]本申请实施例提供了一种预训练词向量生成方法、系统、电子设备及存储介质,以至少解决现有方法词向量表达能力有限的问题。
[0005]第一方面,本申请实施例提供了一种预训练词向量生成方法,包括:数据集处理步骤,收集一数据集,对所述数据集进行预处理,将所述数据集中的原始文本数据变换为数字表示;文本向量生成步骤,建立一向量矩阵,根据所述数字表示在所述向量矩阵中取相应的向量;隐藏向量生成步骤,将中心词窗口大小范围内的所有的所述向量经过一隐藏层,得到隐藏向量;输出向量计算步骤,将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;词向量生成步骤,根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q,并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。
[0006]在其中一些实施例中,所述数据集处理步骤进一步包括:所述预处理包括对所述数据集中所述原始文本数据的字进行实体标注;将进行所述预处理的数据集进行词典构建,根据所述词典将所述原始文本数据变换为所述数字表示。
[0007]在其中一些实施例中,所述词向量生成步骤进一步包括:将所述输出向量按位置排序拼接为所述矩阵K。
[0008]在其中一些实施例中,所述词向量生成步骤进一步包括:复制所述矩阵K得到自注意力机制中的所述矩阵V,并进一步将所述数字表示输入至所述线性层中得到所述自注意力机制中的所述矩阵Q。
[0009]第二方面,本申请实施例提供了一种预训练词向量生成系统,适用于上述一种预训练词向量生成方法,包括:数据集处理模块,收集一数据集,对所述数据集进行预处理,将
所述数据集中的原始文本数据变换为数字表示;文本向量生成模块,建立一向量矩阵,根据所述数字表示在所述向量矩阵中取相应的向量;隐藏向量生成模块,将中心词窗口大小范围内的所有的所述向量经过一隐藏层,得到隐藏向量;输出向量计算模块,将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;词向量生成模块,根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q,并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。
[0010]在其中一些实施例中,所述数据集处理模块进一步包括:所述预处理包括对所述数据集中所述原始文本数据的字进行实体标注;将进行所述预处理的数据集进行词典构建,根据所述词典将所述原始文本数据变换为所述数字表示。
[0011]在其中一些实施例中,所述词向量生成模块进一步包括:将所述输出向量按位置排序拼接为所述矩阵K。
[0012]在其中一些实施例中,所述词向量生成模块进一步包括:复制所述矩阵K得到自注意力机制中的所述矩阵V,并进一步将所述数字表示输入至所述线性层中得到所述自注意力机制中的所述矩阵Q。
[0013]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种预训练词向量生成方法。
[0014]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种预训练词向量生成方法。
[0015]本申请可应用于知识图谱
相比于相关技术,本申请利用CBOW的方式引入词汇的上下文信息并生成K、V矩阵,这种方式相比于传统的矩阵生成方式在词向量映射的初步阶段就引入了上下文信息,由于在词向量模型的开始阶段就通过模型结构的设计引入了上下文信息,通过学习训练得到的词向量表示方式具有更多的语境信息,词向量可以更加贴合一些自然语言处理领域的任务,如相似度分析、自然语言生成等。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1为本专利技术的预训练词向量生成方法流程图;
[0018]图2为本专利技术的预训练词向量生成系统的框架图;
[0019]图3为本专利技术的电子设备的框架图;
[0020]图4为本专利技术的词向量整体模型结构示意图;
[0021]图5为本专利技术的CBOW模型网络结构示意图;
[0022]以上图中:
[0023]1、数据集处理模块;2、文本向量生成模块;3、隐藏向量生成模块;4、输出向量计算模块;5、词向量生成模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
[0024]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0026]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练词向量生成方法,其特征在于,包括:数据集处理步骤,收集一数据集,对所述数据集进行预处理,将所述数据集中的原始文本数据变换为数字表示;文本向量生成步骤,建立一向量矩阵,根据所述数字表示在所述向量矩阵中取相应的向量;隐藏向量生成步骤,将中心词窗口大小范围内的所有的所述向量经过一隐藏层,得到隐藏向量;输出向量计算步骤,将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;词向量生成步骤,根据所述输出向量和所述数字表示获得矩阵K、矩阵V和矩阵Q,并根据所述矩阵K、所述矩阵V和矩所述阵Q进一步进行词向量生成。2.根据权利要求1所述的预训练词向量生成方法,其特征在于,所述数据集处理步骤进一步包括:所述预处理包括对所述数据集中所述原始文本数据的字进行实体标注;将进行所述预处理的数据集进行词典构建,根据所述词典将所述原始文本数据变换为所述数字表示。3.根据权利要求1所述的预训练词向量生成方法,其特征在于,所述词向量生成步骤进一步包括:将所述输出向量按位置排序拼接为所述矩阵K。4.根据权利要求3所述的预训练词向量生成方法,其特征在于,所述词向量生成步骤进一步包括:复制所述矩阵K得到自注意力机制中的所述矩阵V,并进一步将所述数字表示输入至所述线性层中得到所述自注意力机制中的所述矩阵Q。5.一种预训练词向量生成系统,其特征在于,包括:数据集处理模块,收集一数据集,对所述数据集进行预处理,将所述数据集中的原始文本数据变换为数字表示;文本向量生成模块,建立一向量矩阵,...

【专利技术属性】
技术研发人员:刘伟硕
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1