一种文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38314637 阅读:12 留言:0更新日期:2023-07-29 08:56
本发明专利技术实施例公开了一种文本处理方法、装置、电子设备及存储介质;本发明专利技术实施例包括对待处理的文本数据进行词嵌入处理,得到待处理的文本数据对应的词向量;对待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量;基于全连接层对预训练后的特征向量进行线性转换,得到线性转换后的向量;根据线性转换后的向量得到待处理的文本数据对应的语义向量。本发明专利技术实现了对不同样本的泛化性能,提升了语义相似检索任务中文本匹配的准确率。升了语义相似检索任务中文本匹配的准确率。升了语义相似检索任务中文本匹配的准确率。

【技术实现步骤摘要】
一种文本处理方法、装置、电子设备及存储介质


[0001]本申请涉及深度学习
,具体涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]对于文本检索业务,需要先获取文本对应的语义向量,然后基于语义向量计算语义相似度,从而衡量文本的相似性,进一步将文本进行匹配。其中,训练好的语义向量是计算语义相似度的重要前提,目前一般采用RNN网络学习语义向量或者通过预训练模型对文本中的句子进行处理后得到语义向量。
[0003]然而,采用RNN网络学习到的语义向量准确率比较低;利用预训练模型的输出向量直接作为语义向量的方法存在着各向异性的问题,模型泛化能力差,因此在语义相似检索任务中效果不好。

技术实现思路

[0004]本申请实施例提供一种文本处理方法、装置、电子设备及存储介质,以提升模型泛化能力以及语义相似检索任务中文本匹配的准确率。
[0005]本申请实施例提供一种文本处理方法,包括:
[0006]对待处理的文本数据进行词嵌入处理,得到待处理的文本数据对应的词向量;
[0007]对待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量;
[0008]基于全连接层对预训练后的特征向量进行线性转换,得到线性转换后的向量;
[0009]根据线性转换后的向量得到待处理的文本数据对应的语义向量。
[0010]本申请实施例还提供一种文本处理装置,包括:
[0011]嵌入处理模块,用于对待处理的文本数据进行词嵌入处理,得到待处理的文本数据对应的词向量;
[0012]预训练模块,用于对待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量;
[0013]线性转换模块,用于基于全连接层对预训练后的特征向量进行线性转换,得到线性转换后的向量;
[0014]语义向量获取模块,用于根据线性转换后的向量得到待处理的文本数据对应的语义向量。
[0015]在一些实施例中,嵌入处理模块包括文本拆分模块和向量转换模块,其中,
[0016]文本拆分模块,用于将待处理的文本数据拆分成若干个词;
[0017]向量转换模块,用于利用词嵌入方法将若干个词分别转换成具有预设长度的词向量。
[0018]在一些实施例中,向量转换模块包括向量转换子模块,向量转换子模块用于:
[0019]获取词向量对应的令牌嵌入、分段嵌入和位置嵌入;
[0020]利用编码器对令牌嵌入、分段嵌入和位置嵌入进行编码处理,得到编码处理后的向量;
[0021]将编码处理后的向量作为预训练后的特征向量。
[0022]在一些实施例中,文本处理装置还包括训练模块,训练模块用于:
[0023]获取文本数据训练集,文本数据训练集包括文本数据样本;
[0024]对文本数据样本进行词嵌入处理,得到文本数据样本对应的样本词向量;
[0025]对样本词向量进行预训练,得到预训练后的样本特征向量;
[0026]基于全连接层对样本特征向量进行线性转换,得到线性转换后的样本语义向量;
[0027]利用样本语义向量确定全连接层对应的损失函数值;
[0028]根据全连接层对应的损失函数值更新全连接层的参数。
[0029]在一些实施例中,训练模块包括损失确定模块,损失确定模块用于:
[0030]根据样本语义向量确定语义向量矩阵;
[0031]根据语义向量矩阵计算协方差,获得协方差矩阵;
[0032]获取协方差矩阵对应的期望值,获得期望值矩阵;
[0033]计算协方差矩阵与期望值矩阵之间的交叉熵损失;
[0034]将交叉熵损失作为全连接层对应的损失函数值。
[0035]在一些实施例中,损失确定模块包括损失确定子模块,损失确定子模块用于:
[0036]对协方差矩阵按行进行归一化处理,获得归一化处理后的协方差矩阵;
[0037]对归一化处理后的协方差矩阵取对数,获得对数矩阵;
[0038]将期望值矩阵与对数矩阵进行对应元素相乘,获得相乘后的矩阵;
[0039]对相乘后的矩阵中的每个元素取负号,获得取负矩阵;
[0040]对取负矩阵按行求和,获得求和矩阵;
[0041]对求和矩阵中的各个元素平方相加后求均值,获得交叉熵损失。
[0042]在一些实施例中,训练模块还包括参数同时更新模块,参数同时更新模块用于:
[0043]根据预训练后的样本特征向量确定编码器对应的损失函数值;
[0044]基于编码器对应的损失函数值和全连接层对应的损失函数值,更新编码器以及全连接层的参数。
[0045]在一些实施例中,参数同时更新模块包括组合损失确定模块,组合损失确定模块用于:
[0046]将编码器对应的损失函数值和全连接层对应的损失函数值进行加权处理,得到加权处理后的组合损失函数值;
[0047]利用组合损失函数值分别对编码器以及全连接层的参数进行更新。
[0048]本申请实施例还提供一种电子设备,包括处理器和存储器,存储器存储有多条指令,处理器加载指令,以执行本专利技术实施例提供的任一种文本处理方法中的步骤。
[0049]本申请实施例还提供一种存储介质,存储介质存储有多条指令,指令适于处理器进行加载,以执行本专利技术实施例提供的任一种文本处理方法中的步骤。
[0050]本专利技术实施例可以对待处理的文本数据进行词嵌入处理,得到待处理的文本数据对应的词向量;对待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量;基于全连接层对预训练后的特征向量进行线性转换,得到线性转换后的向量;将线性转换
后的向量作为待处理的文本数据对应的语义向量。这样,本专利技术通过基于全连接层对预训练后的特征向量进行线性转换,能够将预训练后的特征向量转换成均值为零且协方差矩阵为单位阵的向量。
[0051]本专利技术基于全连接层能够对预训练后的特征向量进行线性转换,解决了直接将预训练后的特征向量作为语义向量存在着各向异性的问题,另外,本专利技术通过全连接层能够避免离线计算线性变换参数的步骤,提高了计算效率,实现了对不同样本的泛化性能,提升了语义相似检索任务中文本匹配的准确率。
附图说明
[0052]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053]图1是本申请实施例提供的文本处理系统的场景示意图。
[0054]图2a是本申请实施例提供的文本处理方法的流程示意图。
[0055]图2b是本申请实施例提供的计算损失函数的流程示意图。
[0056]图3是本申请实施例提供的文本处理装置的结构示意图。
[0057]图4是本申请实施例提供的电子设备的结构示意图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:对待处理的文本数据进行词嵌入处理,得到所述待处理的文本数据对应的词向量;对所述待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量;基于全连接层对所述预训练后的特征向量进行线性转换,得到线性转换后的向量;根据所述线性转换后的向量得到所述待处理的文本数据对应的语义向量。2.如权利要求1所述的文本处理方法,其特征在于,所述对所述待处理的文本数据进行词嵌入处理,包括:将所述待处理的文本数据拆分成若干个词;利用词嵌入方法将所述若干个词分别转换成具有预设长度的词向量。3.如权利要求1或2所述的文本处理方法,其特征在于,所述对所述待处理的文本数据对应的词向量进行预训练,得到预训练后的特征向量,包括:获取所述词向量对应的令牌嵌入、分段嵌入和位置嵌入;利用编码器对所述令牌嵌入、所述分段嵌入和所述位置嵌入进行编码处理,得到编码处理后的向量;将所述编码处理后的向量作为预训练后的特征向量。4.如权利要求1所述的文本处理方法,其特征在于,所述对待处理的文本数据进行词嵌入处理之前,还包括:获取文本数据训练集,所述文本数据训练集包括文本数据样本;对所述文本数据样本进行词嵌入处理,得到所述文本数据样本对应的样本词向量;对所述样本词向量进行预训练,得到预训练后的样本特征向量;基于全连接层对所述样本特征向量进行线性转换,得到线性转换后的样本语义向量;利用所述样本语义向量确定所述全连接层对应的损失函数值;根据所述全连接层对应的损失函数值更新所述全连接层的参数。5.如权利要求4所述的文本处理方法,其特征在于,所述利用所述样本语义向量确定所述全连接层对应的损失函数值,包括:根据所述样本语义向量确定语义向量矩阵;根据所述语义向量矩阵计算协方差,获得协方差矩阵;获取所述协方差矩阵对应的期望值,获得期望值矩阵;计算所述协方差矩阵与所述期望值矩阵之间的交叉熵损失;将所述交叉熵损失作为所述全连接层对应的损失函数值。6.如权利要求5所述的文本处理方法,其特征在于,所述计算所述协方差...

【专利技术属性】
技术研发人员:杨文博
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1