模型训练数据生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:41233209 阅读:18 留言:0更新日期:2024-05-09 23:48
本申请实施例提供了一种模型训练数据生成方法、装置、设备以及存储介质,该方法包括:通过获取审核数据、审核规则信息以及预生成的对话信息,对话信息包括符合审核规则的违规判断对话;基于对话信息以及对应的样本数据集对预构建的多模态模型进行训练,以使多模态模型进行适应于审核任务的参数调整,多模态模型包括合并有预训练的视觉特征提取器的特征提取网络;将审核数据以及审核规则信息输入至参数调整后的多模态模型,得到输出的模型训练数据。本方案提升多模态模型对审核部位敏感的违规特征提取能力,加强多模态模型对于审核规则中的审核点的关注度,减少人工标注的依赖,有效降低人力成本,提升训练数据的生成效率。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及一种模型训练数据生成方法、装置、设备以及存储介质


技术介绍

1、随着网络的发展以及多媒体技术的成熟,网络直播、短视频等在线媒体形式逐渐成为当下用户的主要娱乐渠道。如主播在直播间进行视频、语音的直播,用户进入直播间后,与主播以及直播间的其它用户进行互动,或主播发布短视频,用户进行图文形式的评论等。由于直播内容、短视频内容或用户交互内容会涉及违规内容,影响网络环境的健康和安全,可以基于审核模型对直播视频、短视频等进行审核。

2、然而,由于审核规则需要适应于时间和地点的改变进行相应的调整,在每次调整后,需要重新训练审核模型以适用于新的审核规则,但是重新训练审核模型需要重新标注与新的审核规则相关的大量违规数据,浪费人力成本,耗费时间长,训练数据的生成效率低下。


技术实现思路

1、本申请实施例提供了一种模型训练数据生成方法、装置、设备以及存储介质,解决了重新训练审核模型需要重新标注与新的审核规则相关的大量违规数据,浪费人力成本,耗费时间长,训练数据的生成效率低下的问题,实现本文档来自技高网...

【技术保护点】

1.一种模型训练数据生成方法,其特征在于,包括:

2.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述获取审核数据、审核规则信息以及预生成的对话信息之前,还包括:

3.根据权利要求2所述的模型训练数据生成方法,其特征在于,在所述获取预生成的描述文本以及第一提示文本之前,还包括:

4.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述基于所述对话信息以及对应的样本数据集对预构建的多模态模型进行训练之前,还包括:

5.根据权利要求2所述的模型训练数据生成方法,其特征在于,所述第一提示文本包括对话生成指示信息、审核规则信息以...

【技术特征摘要】

1.一种模型训练数据生成方法,其特征在于,包括:

2.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述获取审核数据、审核规则信息以及预生成的对话信息之前,还包括:

3.根据权利要求2所述的模型训练数据生成方法,其特征在于,在所述获取预生成的描述文本以及第一提示文本之前,还包括:

4.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述基于所述对话信息以及对应的样本数据集对预构建的多模态模型进行训练之前,还包括:

5.根据权利要求2所述的模型训练数据生成方法,其特征在于,所述第一提示文本包括对话生成指示信息、审核规则信息以及审核对话范例信息。

6.根据权利要求1-5中任一项所述的模型训练数...

【专利技术属性】
技术研发人员:陈建强陈德健项伟
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1