文本处理方法技术

技术编号：39422067 阅读：7 留言：0更新日期：2023-11-19 16:10

本申请实施例提供了一种文本处理方法

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备、存储介质及产品

[0001]本申请涉及自然语言处理
，尤其涉及一种文本处理方法
、
装置
、
设备
、
存储介质及产品
。

技术介绍

[0002]有监督的句子表征模型
Sentence
‑
BERT
，表现出在句向量表示和文本匹配任务上
SOTA
的效果，证明了其有效性
。Sentence
‑
BERT
的训练过程是把
(u,v,|u
‑
v|)
拼接起来后接分类
softmax
层分类
。
但
Sentence
‑
BERT
训练和预测的过程不一致，存在一定概率过拟合甚至“训崩”，表现为训练
loss
在下降，训练
accuracy
在上升，但基于余弦的评测值
Spearman
系数却下降明显，训练集和测试集都会如此
。Sentence
‑
BERT
这种训练预测方式导致文本对的相似度的预测准确度较低
。

技术实现思路

[0003]本申请实施例提供了一种文本处理方法
、
装置
、
设备
、
存储介质及产品，可以提升对文本对的相似度的预测准确度
。
[0004]第一方面，本申请实施例提供了一种...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法，其特征在于，所述方法包括：获取
M
个样本文本对，以及所述
M
个样本文本对分别对应的标注文本相似度；
M
为大于或等于2的整数，一个样本文本对包括两个样本文本；将所述
M
个样本文本对输入至初始文本相似度识别模型，通过所述初始文本相似度识别模型分别对所述
M
个样本文本对进行相似度识别，输出
M
个预测文本相似度；获取所述
M
个预测文本相似度之间的区分参数，根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度，确定所述初始文本相似度识别模型的相似度预测总误差；根据所述相似度预测总误差，对所述初始文本相似度识别模型进行调整，得到用于识别目标文本对的目标相似度的目标文本相似度识别模型
。2.
根据权利要求1所述的方法，其特征在于，所述获取所述
M
个预测文本相似度之间的区分参数，根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度，确定所述初始文本相似度识别模型的相似度预测总误差，包括：获取所述
M
个样本文本对的相似预测顺序，以及所述
M
个预测文本相似度的模型输出顺序；根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度，确定所述
M
个预测文本相似度之间的区分参数；根据所述区分参数，确定所述初始文本相似度识别模型的顺序预测误差；根据所述
M
个样本文本对分别对应标注文本相似度以及所述
M
个预测文本相似度，确定所述初始文本相似度识别模型的相似度预测误差；将所述初始文本相似度识别模型的顺序预测误差，以及所述初始文本相似度识别模型的相似度预测误差之间的和，确定为所述初始文本相似度识别模型的相似度预测总误差
。3.
根据权利要求1所述的方法，其特征在于，所述获取所述
M
个预测文本相似度之间的区分参数，根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度，确定所述初始文本相似度识别模型的相似度预测总误差，包括：获取所述
M
个样本文本对的相似预测顺序，以及所述
M
个预测文本相似度的模型输出顺序；根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应标注文本相似度以及所述
M
个预测文本相似度，确定所述
M
个预测文本相似度之间的区分参数；根据所述区分参数，确定所述初始文本相似度识别模型的顺序预测误差；将所述初始文本相似度识别模型的顺序预测误差，确定为所述初始文本相似度识别模型的相似度预测总误差
。4.
根据权利要求2或3所述的方法，其特征在于，所述
M
个样本文本对分别对应的标注文本相似度包括标注文本相似度
P
r
，以及标注文本相似度
P
r+1
；
r
为大于或等于2且小于或等于
M
的整数；所述
M
个预测文本相似度包括预测文本相似度
Q
r
，以及预测文本相似度
Q
r+1
，所述标注文本相似度
P
r
对应的样本文本对的相似预测顺序与所述预测文本相似度
Q
r
对应的样本文本对的模型输出顺序相同，所述标注文本相似度
P
r+1
对应的样本文本对的相似预测顺序与所述预测文本相似度
Q
r+1
对应的样本文本对的模型输出顺序相同；所述根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应的标注
文本相似度以及所述
M
个预测文本相似度，确定所述
M
个预测文本相似度之间的区分参数，包括：获取所述标注文本相似度
P
r
与所述标注文本相似度
P
r+1
之间的大小关系；根据所述大小关系，对所述预测文...

【专利技术属性】
技术研发人员：徐明，侯树超，
申请(专利权)人：腾讯科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人