基于正负例构造的模型训练方法、装置、设备和介质制造方法及图纸

技术编号:36813840 阅读:10 留言:0更新日期:2023-03-09 01:00
本申请实施例提供一种基于正负例构造的模型训练方法、装置、设备和介质,在每轮模型训练时,从全量样本集中随机选择B个直播切片样本构成分批训练集,提取分批训练集中的各训练样本的特征,各训练样本均包括至少两个特征,为各训练样本构造正例和负例,其中,对于任意一个训练样本,训练样本的第一特征的正例包括:训练样本的第二特征,训练样本的负例包括:其他训练样本的第二特征,使用分批训练集中各训练样本的正例和负例进行分类模型训练。该方法在为训练样本构造正负例时,基于训练样本的不同特征进行跨模态构造,使得同一个样本的特征尽可能的跨模态相似,不同样本的特征尽可能的不相似,从而提高了模型分类的准确性。从而提高了模型分类的准确性。从而提高了模型分类的准确性。

【技术实现步骤摘要】
基于正负例构造的模型训练方法、装置、设备和介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种基于正负例构造的模型训练方法、装置、设备和介质。

技术介绍

[0002]随着互联网技术的发展,网络视频直播逐渐进入了人们的生活,网络视频直播是指人们可以通过网络收看到远端正在进行的现场音视频实况,比如赛事、会议、教学、手术等等。网络视频直播的核心思想是利用既有网络实现对音视频信号的实时传输,并且能够在远端实现流畅的收看。
[0003]网络视频成为了一种社交、学习、工作工具,但是直播视频的内容多种多样,直播视频中会夹带一些不良、不实信息等,所以对直播视频的内容理解应用而生,进一步的可以基于直播视频的内容进行视频分类、聚类等。现有技术中,可以基于深度学习进行视频内容的分析、分类等,具体的,通过将视频分割成固定时长的视频切片,基于视频切片进行模型训练,得到视频分类模型。
[0004]但是,现有的视频分类模型对于直播视频的分类效果不好。

技术实现思路

[0005]本申请实施例提供一种基于正负例构造的模型训练方法、装置、设备、和介质,提高了模型分类的准确性。
[0006]第一方面,本申请实施例提供一种基于正负例构造的模型训练方法,所述方法包括:
[0007]在每轮模型训练时,从全量样本集中随机选择B个样本构成分批训练集,所述全量样本集中的样本为直播切片;
[0008]提取所述分批训练集中的各训练样本的特征,所述训练样本包括至少两个特征;
[0009]为所述分批训练集中的各训练样本构造正例和负例,其中,对于任意一个训练样本,所述训练样本的第一特征的正例包括:所述训练样本的第二特征,所述训练样本的负例包括:所述分批训练集中除所述训练样本外其他训练样本的第二特征;
[0010]使用所述分批训练集中各训练样本的正例和负例进行分类模型训练,并根据训练结果生成损失值,所述损失值用于表征样本的正例的相似度与负例的相似度之间的差异。
[0011]在一些实施例中,所述训练样本的特征包括图像特征、音频特征和语音识别特征;
[0012]所述第一特征为所述图像特征、音频特征和语音识别特征中的任意一个特征,所述第二特征为所述图像特征、音频特征和语音识别特征中除所述第一特征外的任意一个特征。
[0013]在一些实施例中,当所述训练样本的特征中包括音频特征时,所述提取所述分批训练集中的各训练样本的特征,包括:
[0014]采用随机方式确定所述训练样本的自动语义识别ASR文本的起始位置和/或截取
步长;
[0015]根据确定的所述起始位置和截取步长,对所述训练样本的ASR文本进行截取;
[0016]使用语音提取模型,对截取的ASR文本进行特征提取,得到所述训练样本的语音识别特征。
[0017]在一些实施例中,所述全量样本集中各个标签的样本数满足预设比例,其中,各个标签的样本数满足所述预设比例时,所述全量样本集中的样本的标签分布均衡。
[0018]在一些实施例中,所述方法还包括:
[0019]采用随机方式从直播视频中获取预设数量的直播切片,并对所述直播切片添加标签;
[0020]统计各个标签的样本数,并计算各个标签的样本数的比例;
[0021]当各个标签的样本数的比例不满足所述预设比例,调整各个标签的样本数,使得各个标签的样本数的比例满足所述预设比例。
[0022]在一些实施例中,所述训练样本的正例还包括:所述训练样本的m1个时序关联切片的特征,所述时序关联切片与所述训练样本属于同一直播间,且所述时序关联切片的时间属于第一目标时长内,所述第一目标时长包括所述训练样本的时间之前的第一预设时长,和/或,所述训练样本的时间之后的第二预设时长。
[0023]在一些实施例中,所述为所述分批训练集中的各训练样本构造正例和负例,包括:
[0024]对所述分批训练集中的各训练样本,从所述全量样本集中获取所述训练样本所属的目标直播间的切片;
[0025]根据所述训练样本的时间,从所述目标直播间的切片中确定属于所述目标时长内的切片组成的第一候选切片集;
[0026]从所述第一候选切片集中选择m1个切片作为所述训练样本的正例;
[0027]提取所述m1个切片的特征。
[0028]在一些实施例中,所述第一预设时长为第一切片数量,所述第二预设时长为第二切片数量。
[0029]在一些实施例中,所述训练样本的负例还包括:所述训练样本的n1个时序不关联切片的特征,所述时序不关联切片与所述训练样本属于同一直播间,且所述时序不关联切片的时间不属于第二目标时长内,所述第二目标时长包括:所述训练样本的时间之前的第三预设时长,和/或,所述训练样本的时间之后的第四预设时长。
[0030]在一些实施例中,所述为所述分批训练集中的各训练样本构造正例和负例,包括:
[0031]对所述分批训练集中的各训练样本,从所述全量样本集中获取所述训练样本所属的目标直播间的切片;
[0032]根据所述训练样本的时间,从所述目标直播间的切片中确定不属于所述第二目标时长内的切片组成第二候选切片集;
[0033]从所述第二候选切片集中选择n1个切片作为所述训练样本的负例;
[0034]提取所述n1个切片的特征。
[0035]在一些实施例中,所述第三预设时长为第三切片数量,所述第四预设时长为第四切片数量。
[0036]在一些实施例中,所述训练样本的图像特征通过卷积神经网络CNN提取,所述训练
样本的音频特征通过CNN

14提取,所述训练样本的语音识别特征通过Bert模型提取。
[0037]另一方面,本申请实施例提供一种基于正负例构造的模型训练装置,包括:
[0038]抽取模块,用于在每轮模型训练时,从全量样本集中随机选择B个样本构成分批训练集,所述全量样本集中的样本为直播切片;
[0039]特征提取模块,用于提取所述分批训练集中的各训练样本的特征,所述训练样本包括至少两个特征;
[0040]正负例构造模块,用于为所述分批训练集中的各训练样本构造正例和负例,其中,对于任意一个训练样本,所述训练样本的第一特征的正例包括:所述训练样本的第二特征,所述训练样本的负例包括:所述分批训练集中除所述训练样本外其他训练样本的第二特征;
[0041]训练模块,用于使用所述分批训练集中各训练样本的正例和负例进行分类模型训练,并根据训练结果生成损失值,所述损失值用于表征样本的正例的相似度与负例的相似度之间的差异。
[0042]另一方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行如上述任一项所述的方法。
[0043]另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正负例构造的模型训练方法,其特征在于,所述方法包括:在每轮模型训练时,从全量样本集中随机选择B个样本构成分批训练集,所述全量样本集中的样本为直播切片;提取所述分批训练集中的各训练样本的特征,所述训练样本包括至少两个特征;为所述分批训练集中的各训练样本构造正例和负例,其中,对于任意一个训练样本,所述训练样本的第一特征的正例包括:所述训练样本的第二特征,所述训练样本的负例包括:所述分批训练集中除所述训练样本外其他训练样本的第二特征;使用所述分批训练集中各训练样本的正例和负例进行分类模型训练,并根据训练结果生成损失值,所述损失值用于表征样本的正例的相似度与负例的相似度之间的差异。2.根据权利要求1所述的方法,其特征在于,所述训练样本的特征包括图像特征、音频特征和语音识别特征;所述第一特征为所述图像特征、音频特征和语音识别特征中的任意一个特征,所述第二特征为所述图像特征、音频特征和语音识别特征中除所述第一特征外的任意一个特征。3.根据权利要求2所述的方法,其特征在于,当所述训练样本的特征中包括音频特征时,所述提取所述分批训练集中的各训练样本的特征,包括:采用随机方式确定所述训练样本的自动语义识别ASR文本的起始位置和/或截取步长;根据确定的所述起始位置和截取步长,对所述训练样本的ASR文本进行截取;使用语音提取模型,对截取的ASR文本进行特征提取,得到所述训练样本的语音识别特征。4.根据权利要求1所述的方法,其特征在于,所述全量样本集中各个标签的样本数满足预设比例,其中,各个标签的样本数满足所述预设比例时,所述全量样本集中的样本的标签分布均衡。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:采用随机方式从直播视频中获取预设数量的直播切片,并对所述直播切片添加标签;统计各个标签的样本数,并计算各个标签的样本数的比例;当各个标签的样本数的比例不满足所述预设比例,调整各个标签的样本数,使得各个标签的样本数的比例满足所述预设比例。6.根据权利要求1所述的方法,其特征在于,所述训练样本的正例还包括:所述训练样本的m1个时序关联切片的特征,所述时序关联切片与所述训练样本属于同一直播间,且所述时序关联切片的时间属于第一目标时长内,所述第一目标时长包括所述训练样本的时间之前的第一预设时长,和/或,所述训练样本的时间之后的第二预设时长。7.根据权利要求6所述的方法,其特征在于,所述为所述分批训练集中的各训练样本构造正例和负例,包括:对所述分批训练集中的各训练样本,从所述全量样本集中获取所述训练样本所属的目标直播间的切片;根据所述训练样本的时间,从所述目标直播间的切片中确定属于所述目标时长内的切片组成的第一候选切片集;从所述第一候选切片集中选择m1个切片作为所述训练样本的...

【专利技术属性】
技术研发人员:苏凯袁泽寰
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1