System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及计算机,尤其涉及一种模型训练数据生成方法、装置、设备以及存储介质。
技术介绍
1、随着网络的发展以及多媒体技术的成熟,网络直播、短视频等在线媒体形式逐渐成为当下用户的主要娱乐渠道。如主播在直播间进行视频、语音的直播,用户进入直播间后,与主播以及直播间的其它用户进行互动,或主播发布短视频,用户进行图文形式的评论等。由于直播内容、短视频内容或用户交互内容会涉及违规内容,影响网络环境的健康和安全,可以基于审核模型对直播视频、短视频等进行审核。
2、然而,由于审核规则需要适应于时间和地点的改变进行相应的调整,在每次调整后,需要重新训练审核模型以适用于新的审核规则,但是重新训练审核模型需要重新标注与新的审核规则相关的大量违规数据,浪费人力成本,耗费时间长,训练数据的生成效率低下。
技术实现思路
1、本申请实施例提供了一种模型训练数据生成方法、装置、设备以及存储介质,解决了重新训练审核模型需要重新标注与新的审核规则相关的大量违规数据,浪费人力成本,耗费时间长,训练数据的生成效率低下的问题,实现了构建审核违规敏感的多模态模型,通过该多模态模型自动筛选出需标注的模型训练数据,减少人工标注的依赖,有效降低人力成本,提升训练数据的生成效率。
2、第一方面,本申请实施例提供了一种模型训练数据生成方法,该方法包括:
3、获取审核数据、审核规则信息以及预生成的对话信息,所述对话信息包括符合审核规则的违规判断对话;
4、基于所述对话信息以及对应的
5、将所述审核数据以及所述审核规则信息输入至参数调整后的多模态模型,得到输出的模型训练数据。
6、第二方面,本申请实施例还提供了一种模型训练数据生成装置,该装置包括:
7、获取模块,配置为获取审核数据、审核规则信息以及预生成的对话信息,所述对话信息包括符合审核规则的违规判断对话;
8、模型调整模块,配置为基于所述对话信息以及对应的样本数据集对预构建的多模态模型进行训练,以使所述多模态模型进行适应于审核任务的参数调整,所述多模态模型包括合并有预训练的视觉特征提取器的特征提取网络;
9、数据输出模块,配置为将所述审核数据以及所述审核规则信息输入至参数调整后的多模态模型,得到输出的模型训练数据。
10、第三方面,本申请实施例还提供了一种模型训练数据生成设备,该设备包括:
11、一个或多个处理器;
12、存储装置,配置为存储一个或多个程序,
13、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请实施例所述的模型训练数据生成方法。
14、第四方面,本申请实施例还提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行本申请实施例所述的模型训练数据生成方法。
15、第五方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行本申请实施例所述的模型训练数据生成方法。
16、本申请实施例中,通过获取审核数据、审核规则信息以及预生成的对话信息,其中,对话信息包括符合审核规则的违规判断对话;基于对话信息以及对应的样本数据集对预构建的多模态模型进行训练,以使多模态模型进行适应于审核任务的参数调整,其中,多模态模型包括合并有预训练的视觉特征提取器的特征提取网络;将审核数据以及审核规则信息输入至参数调整后的多模态模型,得到输出的模型训练数据。上述方案中,通过构建合并有预训练的视觉特征提取器的多模态模型,提升多模态模型对审核部位敏感的违规特征提取能力,通过使用符合审核规则的违规判断对话对该多模态模型进行调整,可以加强多模态模型对于审核规则中的审核点的关注度,通过多模态模型基于审核规则信息从审核数据中筛选出模型训练数据,得到用于小型模型训练的标注数据,减少人工标注的依赖,有效降低人力成本,提升训练数据的生成效率。
本文档来自技高网...【技术保护点】
1.一种模型训练数据生成方法,其特征在于,包括:
2.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述获取审核数据、审核规则信息以及预生成的对话信息之前,还包括:
3.根据权利要求2所述的模型训练数据生成方法,其特征在于,在所述获取预生成的描述文本以及第一提示文本之前,还包括:
4.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述基于所述对话信息以及对应的样本数据集对预构建的多模态模型进行训练之前,还包括:
5.根据权利要求2所述的模型训练数据生成方法,其特征在于,所述第一提示文本包括对话生成指示信息、审核规则信息以及审核对话范例信息。
6.根据权利要求1-5中任一项所述的模型训练数据生成方法,其特征在于,在所述得到模型训练数据之后,还包括:
7.一种模型训练数据生成装置,其特征在于,包括:
8.一种模型训练数据生成设备,所述设备包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1
9.一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时配置为执行权利要求1-6中任一项所述的模型训练数据生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的模型训练数据生成方法。
...【技术特征摘要】
1.一种模型训练数据生成方法,其特征在于,包括:
2.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述获取审核数据、审核规则信息以及预生成的对话信息之前,还包括:
3.根据权利要求2所述的模型训练数据生成方法,其特征在于,在所述获取预生成的描述文本以及第一提示文本之前,还包括:
4.根据权利要求1所述的模型训练数据生成方法,其特征在于,在所述基于所述对话信息以及对应的样本数据集对预构建的多模态模型进行训练之前,还包括:
5.根据权利要求2所述的模型训练数据生成方法,其特征在于,所述第一提示文本包括对话生成指示信息、审核规则信息以及审核对话范例信息。
6.根据权利要求1-5中任一项所述的模型训练数...
【专利技术属性】
技术研发人员:陈建强,陈德健,项伟,
申请(专利权)人:百果园技术新加坡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。