文本识别模型的训练方法、文本识别方法及相关装置制造方法及图纸

技术编号:33836779 阅读:18 留言:0更新日期:2022-06-16 11:54
本公开涉及一种文本识别模型的训练方法、文本识别方法及相关装置,以解决话题业务场景下训练样本不足的问题,并通过预训练模型加快训练速度。该训练方法包括:获取目标文本,目标文本包括第一文本、第一掩码文本和第二文本;将第一文本、第一掩码文本和第二文本输入文本识别模型,得到文本识别模型输出的用于表征第一文本与第二文本是否属于同一话题类型的话题预测结果、第一文本对应的第一文本向量、第二文本对应的第二文本向量和第一掩码文本对应的第一掩码向量;根据第一文本向量、第一掩码向量、第二文本向量、话题标签和话题预测结果确定目标损失函数值,并基于目标损失函数值调整所述文本识别模型的参数。调整所述文本识别模型的参数。调整所述文本识别模型的参数。

【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法及相关装置


[0001]本公开涉及自然语言处理
,具体地,涉及一种文本识别模型的训练方法、文本识别方法及相关装置。

技术介绍

[0002]随着互联网的迅猛发展,涌现出论坛、社区及等网站,为相同爱好者提供交流互动。在这类网站中,通常会划分出多个不同的交流小组,每个交流小组提供同类型的话题供感兴趣的用户进行交流互动,例如养宠物相关的话题属于宠物交流小组,钓鱼相关的话题属于钓鱼交流小组,等等。对养宠物感兴趣的用户可以在宠物交流小组中,基于某一养宠物的话题进行交流互动。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种文本识别模型的训练方法,所述训练方法包括:
[0005]获取目标文本,所述目标文本包括第一文本、第一掩码文本和第二文本,其中所述第一掩码文本由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,所述训练方法包括:获取目标文本,所述目标文本包括第一文本、第一掩码文本和第二文本,其中所述第一掩码文本由所述第一文本进行掩码处理得到,所述第一文本和所述第二文本标注有话题标签,所述话题标签用于表征所述第一文本和所述第二文本是否属于同一话题类型;将所述第一文本、所述第一掩码文本和所述第二文本输入所述文本识别模型,得到所述文本识别模型输出的用于表征所述第一文本与所述第二文本是否属于同一话题类型的话题预测结果、所述第一文本对应的第一文本向量、所述第二文本对应的第二文本向量和所述第一掩码文本对应的第一掩码向量,所述文本识别模型的初始化参数基于预训练模型的参数确定,所述预训练模型用于识别两个文本是否相似;根据所述第一文本向量、所述第一掩码向量、所述第二文本向量、所述话题标签和所述话题预测结果确定目标损失函数值,并基于所述目标损失函数值调整所述文本识别模型的参数。2.根据权利要求1所述的训练方法,其特征在于,所述根据所述第一文本向量、所述第一掩码向量、所述第二文本向量、所述话题标签和所述话题预测结果确定目标损失函数值,包括:根据所述第一文本向量、所述第一掩码向量和所述第二文本向量确定第一损失函数值;根据所述话题标签和所述话题预测结果确定第二损失函数值;基于所述第一损失函数值和所述第二损失函数值确定所述目标损失函数值。3.根据权利要求2所述的训练方法,其特征在于,所述根据所述第一文本向量、所述第一掩码向量和所述第二文本向量确定第一损失函数值,包括:将所述第一文本向量和所述第一掩码向量相减得到第一损失向量,以及将所述第一文本向量和所述第二文本向量相减得到第二损失向量;将所述第一损失向量的欧氏距离与所述第二损失向量的欧氏距离相减得到所述第一损失函数值。4.根据权利要求1

3任一项所述的训练方法,其特征在于,所述文本识别模型包括第一编码网络、第二编码网络和预测网络,所述将所述第一文本、所述第一掩码文本和所述第二文本输入所述文本识别模型,得到所述文本识别模型输出的用于表征所述第一文本与所述第二文本是否属于同一话题类型的话题预测结果、所述第一文本对应的第一文本向量、所述第二文本对应的第二文本向量和所述第一掩码文本对应的第一掩码向量,包括:将所述第一文本输入所述第一编码网络得到第一文本向量,并将所述第一掩码文本输入所述第一编码网络得到第一掩码向量,以及将所述第二文本输入所述第二编码网络得到第二文本向量;将所述第一文本向量和所述第二文本向量输入所述预测网络,得到用于表征所述第一文本与所述第二文本是否属于同一话题类型的话题预测结果。5.根据权利要求4所述的训练方法,其特征在于,所述第一编码网络的参数和所述第二编码网络的参数通过如下方式进行初始化:获取预训练样本,所述预训练样本包括第一预训练文本和第二预训练文本;将所述预训练样本输入所述预训练模型进行训练,所述预训练模型用于判断所述第一
预训练文本与所述第二预训练文本是否相似,所述预训练模型包括预训练编码网络,其中,所述预训练编码网络的结构与所述第一编码网络和所述第二编码网络的结...

【专利技术属性】
技术研发人员:陈维识
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1