一种文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38314637 阅读：12 留言：0更新日期：2023-07-29 08:56

本发明专利技术实施例公开了一种文本处理方法、装置、电子设备及存储介质；本发明专利技术实施例包括对待处理的文本数据进行词嵌入处理，得到待处理的文本数据对应的词向量；对待处理的文本数据对应的词向量进行预训练，得到预训练后的特征向量；基于全连接层对预训练后的特征向量进行线性转换，得到线性转换后的向量；根据线性转换后的向量得到待处理的文本数据对应的语义向量。本发明专利技术实现了对不同样本的泛化性能，提升了语义相似检索任务中文本匹配的准确率。升了语义相似检索任务中文本匹配的准确率。升了语义相似检索任务中文本匹配的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置、电子设备及存储介质

[0001]本申请涉及深度学习
，具体涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]对于文本检索业务，需要先获取文本对应的语义向量，然后基于语义向量计算语义相似度，从而衡量文本的相似性，进一步将文本进行匹配。其中，训练好的语义向量是计算语义相似度的重要前提，目前一般采用RNN网络学习语义向量或者通过预训练模型对文本中的句子进行处理后得到语义向量。
[0003]然而，采用RNN网络学习到的语义向量准确率比较低；利用预训练模型的输出向量直接作为语义向量的方法存在着各向异性的问题，模型泛化能力差，因此在语义相似检索任务中效果不好。

技术实现思路

[0004]本申请实施例提供一种文本处理方法、装置、电子设备及存储介质，以提升模型泛化能力以及语义相似检索任务中文本匹配的准确率。
[0005]本申请实施例提供一种文本处理方法，包括：
[0006]对待处理的文本数据进行词嵌入处理，得到待处理的文本数据对应的词向量；
[0007]对待处理的文本数据对应的词向量进行预训练，得到预训练后的特征向量；
[0008]基于全连接层对预训练后的特征向量进行线性转换，得到线性转换后的向量；
[0009]根据线性转换后的向量得到待处理的文本数据对应的语义向量。
[0010]本申请实施例还提供一种文本处理装置，包括：
[0011]嵌入处理模块，用于对待处理的文本数据进行词嵌入处理，得到待处理的文本...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：对待处理的文本数据进行词嵌入处理，得到所述待处理的文本数据对应的词向量；对所述待处理的文本数据对应的词向量进行预训练，得到预训练后的特征向量；基于全连接层对所述预训练后的特征向量进行线性转换，得到线性转换后的向量；根据所述线性转换后的向量得到所述待处理的文本数据对应的语义向量。2.如权利要求1所述的文本处理方法，其特征在于，所述对所述待处理的文本数据进行词嵌入处理，包括：将所述待处理的文本数据拆分成若干个词；利用词嵌入方法将所述若干个词分别转换成具有预设长度的词向量。3.如权利要求1或2所述的文本处理方法，其特征在于，所述对所述待处理的文本数据对应的词向量进行预训练，得到预训练后的特征向量，包括：获取所述词向量对应的令牌嵌入、分段嵌入和位置嵌入；利用编码器对所述令牌嵌入、所述分段嵌入和所述位置嵌入进行编码处理，得到编码处理后的向量；将所述编码处理后的向量作为预训练后的特征向量。4.如权利要求1所述的文本处理方法，其特征在于，所述对待处理的文本数据进行词嵌入处理之前，还包括：获取文本数据训练集，所述文本数据训练集包括文本数据样本；对所述文本数据样本进行词嵌入处理，得到所述文本数据样本对应的样本词向量；对所述样本词向量进行预训练，得到预训练后的样本特征向量；基于全连接层对所述样本特征向量进行线性转换，得到线性转换后的样本语义向量；利用所述样本语义向量确定所述全连接层对应的损失函数值；根据所述全连接层对应的损失函数值更新所述全连接层的参数。5.如权利要求4所述的文本处理方法，其特征在于，所述利用所述样本语义向量确定所述全连接层对应的损失函数值，包括：根据所述样本语义向量确定语义向量矩阵；根据所述语义向量矩阵计算协方差，获得协方差矩阵；获取所述协方差矩阵对应的期望值，获得期望值矩阵；计算所述协方差矩阵与所述期望值矩阵之间的交叉熵损失；将所述交叉熵损失作为所述全连接层对应的损失函数值。6.如权利要求5所述的文本处理方法，其特征在于，所述计算所述协方差...

【专利技术属性】
技术研发人员：杨文博，
申请(专利权)人：TCL科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人