语料处理方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号:38435148 阅读:20 留言:0更新日期:2023-08-11 14:20
本申请公开了一种语料处理方法、装置、电子设备、存储介质及产品。该方法包括:响应于语料处理指令,确定对应的待处理语料;其中,待处理语料包括以下至少之一:待处理图文和待处理图像;以待处理语料为输入,利用目标模态融合模型得到对应的融合特征,以基于所述融合特征进行业务处理。本申请实施例利用目标模态融合模型进行语料处理,其输出的融合特征是能够反映模态间特征关系的内容特征,提高了内容特征提取的可靠性和有效性,进而提高了进行内容处理场景的准确度。理场景的准确度。理场景的准确度。

【技术实现步骤摘要】
语料处理方法、装置、电子设备、存储介质及产品


[0001]本申请涉及互联网通信
,尤其涉及一种语料处理方法、装置、电子设备、存储介质及产品。

技术介绍

[0002]随着互联网通信技术的迅猛发展,各类互联网产品层出不穷。以提供内容(比如图文)体验的互联网产品为例,内容常具备不只一种模态。相关技术中,利用相关模型进行内容特征提取时,所得到的内容特征往往是各种模态的通用特征的简单拼接,并不能提供能够反映模态间特征关系的内容特征。因此,需要提供能够输出此类内容特征(反映模态间特征关系的内容特征)的内容处理方案。

技术实现思路

[0003]为了解决现有技术应用在提取内容特征时,不能获得能够反映模态间特征关系的内容特征等问题,本申请提供了一种语料处理方法、装置、电子设备、存储介质及产品:
[0004]根据本申请的第一方面,提供了一种语料处理方法,所述方法包括:
[0005]响应于语料处理指令,确定对应的待处理语料;其中,所述待处理语料包括以下至少之一:待处理图文和待处理图像;
[0006]以所述待处理语料为输入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料处理方法,其特征在于,所述方法包括:响应于语料处理指令,确定对应的待处理语料;其中,所述待处理语料包括以下至少之一:待处理图文和待处理图像;以所述待处理语料为输入,利用目标模态融合模型得到对应的融合特征,以基于所述融合特征进行业务处理;其中,所述目标模态融合模型是通过多个图文对样本进行机器学习训练,并在训练过程中调整预设模型的参数而获得的,每个所述图文对样本指示成对的图像样本和文本样本,所述训练过程包括基于预设任务信息处理图文特征集,所述图文特征集包括多个图文特征,所述多个图文特征与所述多个图文对样本一一对应,所述预设任务信息指示学习所述图文特征集中两类相关度的任务,所述两类相关度分别为所述图文特征集中同一图文特征中图像特征部分和文本特征部分间的第一相关度,以及不同图文特征间图像特征部分和文本特征部分间的第二相关度。2.根据权利要求1所述的方法,其特征在于,训练获得所述目标模态融合模型的过程包括:以所述多个图文对样本为输入,利用第一预设模型得到所述多个图文对样本对应的多个图像样本中每个所述图像样本对应的图像特征;以所述多个图文对样本为输入,利用第二预设模型得到所述多个图文对样本对应的多个文本样本中每个所述文本样本对应的文本特征;以所述图文特征集为输入,利用第三预设模型对所述图文特征集进行基于所述预设任务信息的处理,得到实际处理结果;根据所述实际处理结果和目标处理结果调整所述第三预设模型的参数至满足模型收敛条件;其中,所述目标处理结果是基于所述预设任务信息和所述图文特征集确定的;基于所述第一预设模型、所述第二预设模型和满足所述模型收敛条件的第三预设模型得到所述目标模态融合模型。3.根据权利要求2所述的方法,其特征在于,所述以所述多个图文对样本为输入,利用第一预设模型得到所述多个图文对样本对应的多个图像样本中每个所述图像样本对应的图像特征,包括:将所述多个图文对样本输入所述第一预设模型;利用所述第一预设模型中的至少两个子模型依次处理所述多个图文对样本对应的多个图像样本中的每个所述图像样本,得到每个所述图像样本对应的图像特征;其中,所述至少两个子模型包括设置于输入端的预设卷积神经网络模型以及设置于输出端的具有转换结构的预设机器学习模型。4.根据权利要求2或3所述的方法,其特征在于,所述利用第三预设模型对所述图文特征集进行基于所述预设任务信息的处理,得到实际处理结果,包括:利用所述第三预设模型构建多个待学习的图文特征对;其中,所述多个待学习的图文特征对是基于所述预设任务信息对所述图文特征集中所有图文特征进行拆分、重组得到的;利用所述第三预设模型确定所述图文特征集中每个图文特征中图像特征部分和文本特征部分的第三相关度,以得到第一子实际处理结果;利用所述第三预设模型确定每个所述待学习的图文特征对中图像特征部分和文本特
征部分的第四相关度,以得到第二子实际处理结果;基于所述第一子实际处理结果和所述第二子实际处理结果得到所述实际处理结果。5.根据权利要求4所述的方法,其特征在于:所述目标处理结果包括第一子目标处理结果和所述第二子目标处理结果,所述第一子目标处理结果用于表征所述第一相关度为正相关,所述第二子目标处理结果用于表征所述第二相关度为负相关;所述根据所述实际处理结果和目标处理结果调整所述第三预设模型的参数至满足模型收敛条件,包括:基于所述第一子实际处理结果和所述第一子目标处理结果确定对应的第一类损失值;基于所述第二子实际处理结果和所述第二子目标处理结果确定对应的第二类损失值;基于所述第一类损失值和所述第二类损失值对所述第三预设模型的参数进行调整,直至满足与相关度学习任务有关的模型收敛条件。6.根据权利要求2所述的方法,其特征在于:所述预设任务信息还指示模态缺失场景下的学习任务,所述目标处理结果用于表征所述第...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1