【技术实现步骤摘要】
文本处理方法、装置、设备、存储介质及产品
[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理方法
、
装置
、
设备
、
存储介质及产品
。
技术介绍
[0002]有监督的句子表征模型
Sentence
‑
BERT
,表现出在句向量表示和文本匹配任务上
SOTA
的效果,证明了其有效性
。Sentence
‑
BERT
的训练过程是把
(u,v,|u
‑
v|)
拼接起来后接分类
softmax
层分类
。
但
Sentence
‑
BERT
训练和预测的过程不一致,存在一定概率过拟合甚至“训崩”,表现为训练
loss
在下降,训练
accuracy
在上升,但基于余弦的评测值
Spearman
系数却下降明显,训练集和测试集都会如此
。Sentence
‑
BERT
这种训练预测方式导致文本对的相似度的预测准确度较低
。
技术实现思路
[0003]本申请实施例提供了一种文本处理方法
、
装置
、
设备
、
存储介质及产品,可以提升对文本对的相似度的预测准确度
。
[0004]第一方面,本申请实施例提供了一种 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,所述方法包括:获取
M
个样本文本对,以及所述
M
个样本文本对分别对应的标注文本相似度;
M
为大于或等于2的整数,一个样本文本对包括两个样本文本;将所述
M
个样本文本对输入至初始文本相似度识别模型,通过所述初始文本相似度识别模型分别对所述
M
个样本文本对进行相似度识别,输出
M
个预测文本相似度;获取所述
M
个预测文本相似度之间的区分参数,根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度,确定所述初始文本相似度识别模型的相似度预测总误差;根据所述相似度预测总误差,对所述初始文本相似度识别模型进行调整,得到用于识别目标文本对的目标相似度的目标文本相似度识别模型
。2.
根据权利要求1所述的方法,其特征在于,所述获取所述
M
个预测文本相似度之间的区分参数,根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度,确定所述初始文本相似度识别模型的相似度预测总误差,包括:获取所述
M
个样本文本对的相似预测顺序,以及所述
M
个预测文本相似度的模型输出顺序;根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度,确定所述
M
个预测文本相似度之间的区分参数;根据所述区分参数,确定所述初始文本相似度识别模型的顺序预测误差;根据所述
M
个样本文本对分别对应标注文本相似度以及所述
M
个预测文本相似度,确定所述初始文本相似度识别模型的相似度预测误差;将所述初始文本相似度识别模型的顺序预测误差,以及所述初始文本相似度识别模型的相似度预测误差之间的和,确定为所述初始文本相似度识别模型的相似度预测总误差
。3.
根据权利要求1所述的方法,其特征在于,所述获取所述
M
个预测文本相似度之间的区分参数,根据所述区分参数
、
所述
M
个样本文本对分别对应的标注文本相似度以及所述
M
个预测文本相似度,确定所述初始文本相似度识别模型的相似度预测总误差,包括:获取所述
M
个样本文本对的相似预测顺序,以及所述
M
个预测文本相似度的模型输出顺序;根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应标注文本相似度以及所述
M
个预测文本相似度,确定所述
M
个预测文本相似度之间的区分参数;根据所述区分参数,确定所述初始文本相似度识别模型的顺序预测误差;将所述初始文本相似度识别模型的顺序预测误差,确定为所述初始文本相似度识别模型的相似度预测总误差
。4.
根据权利要求2或3所述的方法,其特征在于,所述
M
个样本文本对分别对应的标注文本相似度包括标注文本相似度
P
r
,以及标注文本相似度
P
r+1
;
r
为大于或等于2且小于或等于
M
的整数;所述
M
个预测文本相似度包括预测文本相似度
Q
r
,以及预测文本相似度
Q
r+1
,所述标注文本相似度
P
r
对应的样本文本对的相似预测顺序与所述预测文本相似度
Q
r
对应的样本文本对的模型输出顺序相同,所述标注文本相似度
P
r+1
对应的样本文本对的相似预测顺序与所述预测文本相似度
Q
r+1
对应的样本文本对的模型输出顺序相同;所述根据所述模型输出顺序
、
所述相似预测顺序
、
所述
M
个样本文本对分别对应的标注
文本相似度以及所述
M
个预测文本相似度,确定所述
M
个预测文本相似度之间的区分参数,包括:获取所述标注文本相似度
P
r
与所述标注文本相似度
P
r+1
之间的大小关系;根据所述大小关系,对所述预测文...
【专利技术属性】
技术研发人员:徐明,侯树超,
申请(专利权)人:腾讯科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。