【技术实现步骤摘要】
一种数据处理方法及其装置
[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及其装置
。
技术介绍
[0002]人工智能
(Artificial Intelligence
,
AI)
是利用数字计算机或者数字计算机控制的机器模拟
、
延伸和扩展人的智能,感知环境
、
获取知识并使用知识获得最佳结果的理论
、
方法
、
技术及应用系统
。
换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器
。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知
、
推理与决策的功能
。
[0003]随着神经网络模型的规模不断变大,在模型训练和推理时需要承受巨大的计算和存储费用
。
现有技术中,常常采用基于预训练大模型的微调方式来适应下游任务,进而降低模型的训练成本r/>。
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:获取待处理数据;根据神经网络模型,处理所述待处理数据,得到处理结果;其中,所述神经网络模型包括线性变换层以及所述线性变换层对应的加权因子,在所述处理所述待处理数据时,所述神经网络模型用于将所述线性变换层的输出和对应的所述加权因子进行融合;根据所述处理结果,确定损失,并根据所述损失更新所述神经网络模型中的所述加权因子,以得到微调后的所述神经网络模型
。2.
根据权利要求1所述的方法,其特征在于,所述待处理数据为文本数据或者图像数据,所述神经网络模型用于实现基于文本数据或者图像数据的图像生成任务,所述处理结果为图像数据;或者,所述待处理数据为文本数据,所述神经网络模型用于实现自然语言生成任务,所述处理结果为文本数据
。3.
根据权利要求2所述的方法,其特征在于,所述待处理数据为添加噪声的图像数据,所述神经网络模型包括特征提取网络和去噪网络,所述特征提取网络包括所述线性变换层;所述处理结果为所述去噪网络输出的去噪后的图像数据;所述根据所述处理结果,确定损失,包括:根据所述处理结果和添加噪声前的图像数据,确定损失
。4.
根据权利要求1至3任一所述的方法,其特征在于,所述神经网络模型为预训练模型,在对所述神经网络模型进行预训练时,所述神经网络模型不包括所述线性变换层对应的加权因子;或者,在对所述神经网络模型进行预训练时,所述线性变换层对应的加权因子不更新
。5.
根据权利要求1至4任一所述的方法,其特征在于,所述神经网络模型包括
transformer
层,所述
transformer
层包括注意力头,所述线性变换层为所述注意力头中的至少一个线性变换层
。6.
根据权利要求1至5任一所述的方法,其特征在于,所述神经网络模型包括
transformer
层,所述
transformer
层包括前馈
FFN
层,所述线性变换层为所述
FFN
中的至少一个线性变换层
。7.
一种数据处理方法,其特征在于,所述方法包括:获取待处理数据;根据神经网络模型,处理所述待处理数据,得到处理结果;其中,所述神经网络模型包括线性变换层以及所述线性变换层对应的加权因子,在所述处理所述待处理数据时,所述神经网络模型用于将所述线性变换层的输出和对应的所述加权因子进行融合
。8.
根据权利要求7所述的方法,其特征在于,所述待处理数据为文本数据或者图像数据,所述神经网络模型用于实现基于文本数据或者图像数据的图像生成任务,所述处理结果为图像数据;或者,所述待处理数据为文本数据,所述神经网络模型用于实现自然语言生成任务,所述处理结果为文本数据
。9.
根据权利要求7或8所述的方法,其特征在于,所述神经网络模型为预训练模型,在对所述神经网络模型进行预训练时,所述神经网络模型不包括所述线性变换层对应的加权因
子;或者,在对所述神经网络模型进行预训练时,所述线性变换层对应的加权因子不更新
。10.
根据权利要求7至9任一所述的方法,其特征在于,所述神经网络模型包括
transformer
层,所述
transformer
层包括注意力头,所述线性变换层为所述注意力头中的至少一个线性变换层;或者,所述神经网络模型包括
transformer
层,所述
transformer
层包括前馈
FFN
层,所述线性变换层为所述
FFN
中的至少一个线性变换层
。11.
一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理数据;处理模块,用于根据神经网络模型,处理所述待处理数据,得到处理结果;其中,所述神经网络模型包括线性变换层以及所述线性变换层对应的加权因子,在所述处理所述待处理数据时,所述神经网络模型用于将所述线性变换层的输出和对应的所述加权因子进行融合;根据所述处理结果,确定损失,并根据所述损失更新所述神经网络模型中的所述加权因子,以得到微调后的所述神经网络模型
。12.
根据权利要求
11
所述的装置,其特征在于,所述待处理数据为文本数据或者图像数据,所述神经网络模型用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。