【技术实现步骤摘要】
数据处理方法及装置、文本属性识别方法及装置
[0001]本申请涉及人工智能
,具体涉及一种数据处理方法及装置、文本属性识别方法及装置。
技术介绍
[0002]文本属性识别是文本识别任务中的常见话题之一,随着人工智能(Artificial Intelligence,AI)技术的不断发展,基于人工智能技术的文本属性识别技术开始被应用到文本属性识别任务中,从而可以大大提升文本属性识别的效率以及准确性。
[0003]目前基于人工智能技术的文本属性识别技术,在进行文本属性识别任务之前,需要训练文本属性识别任务对应的文本属性识别模型,再基于训练得到的文本属性识别模型进行文本属性识别。然而,文本属性识别任务为细粒度多标签分类任务,对训练样本进行人工标注标签需要耗费大量的时间,导致模型数据处理的效率十分低下。
技术实现思路
[0004]本申请实施例提供一种数据处理方法及装置、文本属性识别方法及装置,该方法引入自监督学习策略,无需人工对大量的训练样本数据标注标签数据,从而可以大大提升模型训练的效率,进而可以提升数
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一训练样本数据,所述第一训练样本数据包括多张第一文本图像;对每张第一文本图像进行数据增强处理,得到每张第一文本图像对应的正样本对,所述正样本对中包括第一文本图像对应的至少两张正样本;采用待训练的神经网络模型对每张第一文本图像对应的至少两张正样本进行特征提取,得到每张第一文本图像对应的至少两个文本属性特征;基于所述至少两个文本属性特征构建对比学习损失,并基于所述对比学习损失对所述待训练的神经网络模型的模型参数进行调整,得到预训练后的神经网络模型;获取第二训练样本数据,所述第二训练样本数据包括多张第二文本图像以及每张第二文本图像对应的标签数据,并基于所述第二训练样本数据对所述预训练后的神经网络模型的模型参数进行调整,得到训练后的神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述对每张第一文本图像进行数据增强处理,得到每张第一文本图像对应的正样本对,包括:对每张第一文本图像中的字符进行识别;将识别到的字符进行随机重排、随机裁剪并调整尺寸以及调整颜色中的一种或多种组合操作,得到每张第一文本图像对应的至少两张正样本,所述至少两张正样本构成正样本对。3.根据权利要求1所述的方法,其特征在于,所述采用待训练的神经网络模型对每张文本图像对应的至少两张正样本进行特征提取,得到每张第一文本图像对应的至少两个文本属性特征,包括:基于待训练的神经网络模型中的卷积层对每张正样本进行卷积处理,得到每张正样本的第一中间特征;基于待训练的神经网络模型中的池化层对每张正样本的第一中间特征进行池化处理,得到每张正样本的文本属性特征。4.根据权利要求3所述的方法,其特征在于,所述基于待训练的神经网络模型中的卷积层对每张正样本进行卷积处理,得到每张正样本的第一中间特征,包括:基于待训练的神经网络模型中的卷积层对每张正样本进行卷积处理,得到每张正样本的第二中间特征;对所述第二中间特征进行增强处理,得到每张正样本的第一中间特征。5.根据权利要求4所述的方法,其特征在于,所述对所述第二中间特征进行增强处理,得到每张正样本的第一中间特征,包括:对所述第二中间特征进行特征掩码处理,得到第三中间特征;对所述第三中间特征进行自注意力处理,得到每张正样本的第一中间特征。6.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个文本属性特征构建对比学习损失,并基于所述对比学习损失对所述待训练的神经网络模型的模型参数进行调整,得到预训练后的神经网络模型,包括:基于所述至少两个文本属性特征对每张第一文本图像对应的正样本对进行评分;基于每张第一文本图像对应的评分分值以及对应的至少两个文本属性特征构建对比学习损失,并基于所述对比学习损失对所述待训练的神经网络模型的模型参数进行调整,
得到预训练后的神经网络模型。7.根据权利要求6所述的方法,其特征在于,所述基于所述至少两个文本属性特征对每张第一文本图像对应的正样本对进行评分,包括:对每张第一文本图像对应的至少两个文本属性特征进行第一特征变换处理,得到每张第一文本图像对应的至少两个第一变换特征;基于每张第一文本图像对应的至少两个第一变换特征,计算每张第一文本图像对应的正样本对的评分分值。8.根据权利要求7所述的方法,其特征在于,所述基于每张第一文本图像对应的评分分值以及对应的至少两个文本属性特征构建对比学习损失,并基于所述对比学习损失对所述待训练的神经网络模型的模型参数进行调整,得到预训练后的神经网...
【专利技术属性】
技术研发人员:聂畅,胡益清,姜德强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。