【技术实现步骤摘要】
文本处理模型训练方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,具体涉及一种文本处理模型训练方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质。
技术介绍
[0002]当前,大多数文本业务场景要用到文本处理模型对文本进行处理。在对文本处理模型进行训练的过程中需要用到训练样本。训练样本中如果存在相关文本信息,可以认为训练数据中存在大量同质化的文本信息,同质化是指训练样本中存在相同或相似的文本信息。
[0003]例如,将训练数据集分为A子集和B子集,该训练数据集中的每个训练样本由4种文本信息构成,4种文本信息分别为文本信息1、文本信息2、文本信息3和文本信息4。若A子集中每个训练样本包含文本信息1和文本信息2,则称文本信息1和文本信息2为相关文本信息,可以确定A子集中存在同质化的文本信息。若B子集中的每个训练样本包含文本信息3和文本信息4,则称文本信息3和文本信息4是相关文本信息,可以确定B子集中存在同质化的文本信息。
[0004]在这种情况下,采用存在相关文本信息的训练样 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理模型训练方法,其特征在于,包括:获取训练文本的原始文本信息;对所述原始文本信息进行特征提取,得到所述原始文本信息的原始文本特征;根据所述原始文本特征,确定与所述原始文本信息对应的目标相似文本信息;根据所述原始文本信息和所述目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,所述训练后文本处理模型用于对文本进行识别。2.根据权利要求1所述的文本处理模型训练方法,其特征在于,所述根据所述原始文本特征,确定与所述原始文本信息对应的目标相似文本信息,包括:确定与所述原始文本特征维度匹配的参考文本特征;根据所述原始文本特征和所述参考文本特征,确定与所述原始文本信息对应的目标相似文本信息。3.根据权利要求2所述的文本处理模型训练方法,其特征在于,所述根据所述原始文本特征和所述参考文本特征,确定与所述原始文本信息对应的目标相似文本信息,包括:根据所述原始文本特征和所述参考文本特征,计算所述原始文本特征和所述参考文本特征之间的差异信息;根据所述差异信息,确定与所述原始文本信息对应的目标相似文本信息。4.根据权利要求3所述的文本处理模型训练方法,其特征在于,所述根据所述原始文本特征和所述参考文本特征,计算所述原始文本特征和所述参考文本特征之间的差异信息,包括:根据所述原始文本特征和所述参考文本特征,计算原始文本特征和所述参考文本特征之间在映射空间中的目标距离信息;将所述目标距离信息作为所述差异信息。5.根据权利要求2所述的文本处理模型训练方法,其特征在于,所述确定与所述原始文本特征维度匹配的参考文本特征,包括:获取与所述原始文本信息维度匹配的参考文本信息;对所述参考文本信息进行特征提取,得到与所述原始文本特征维度匹配的参考文本特征。6.根据权利要求1所述的文本处理模型训练方法,其特征在于,所述根据所述原始文本信息和所述目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,包括:对所述原始文本信息进行预测,得到预测后原始文本信息;对所述目标相似文本信息进行预测,得到预测后相似文本信息;根据所述原始文本信息、所述预测后原始文本信息、所述目标相似文本信息,以及所述预测后相似文...
【专利技术属性】
技术研发人员:郝彦超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。