【技术实现步骤摘要】
基于声纹特征识别主播的方法及装置
本专利技术涉及视频监控
,更具体地,涉及基于声纹特征识别主播的方法及装置。
技术介绍
网络直播,即互联网直播服务,是一种主播主导、全新的互联网视听节目,通常采用视频、音频、图文等形式,实时向公众播送各种咨询或节目等。截至2019年6月,我国网络直播用户规模达4.33亿,占网民整体的50.7%,其中真人秀直播的用户规模为2.05亿,占网民整体的24.0%。网络直播吸引着越来越多的用户,而经济利益的诱惑和监管上的疏漏等也导致了直播行业的各种乱象。部分主播为了自身利益,不择手段的吸引观众眼球,其手法主要分为两类。一类是涉嫌违法犯罪的行为,如淫秽色情表演、侵犯隐私、侵犯版权、虚假炒作、寻衅滋事、亵渎国家象征等;另一类是虽不触犯法律,但其行为影响恶劣,败坏社会风气的行为,如言语暴力低俗、攀比炫富、违规广告、虐杀动物,不尊重民族历史文化的内容等。这些主播并非不知道其直播内容不符合规章制度,更多的是抱有即使被所在平台封杀也可以换一个平台、账号继续直播的侥幸心理,导致此类行为屡禁不止。 ...
【技术保护点】
1.一种基于声纹特征识别主播的方法,其特征在于,包括:/n从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;/n根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;/n计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。/n
【技术特征摘要】
1.一种基于声纹特征识别主播的方法,其特征在于,包括:
从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。
2.根据权利要求1所述的基于声纹特征识别主播的方法,其特征在于,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:
将每一帧音频信息转换为Fbank特征;
将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。
3.根据权利要求2所述的基于声纹特征识别主播的方法,其特征在于,所述神经网络模型的训练方法为:
构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;
将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;
计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;
根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。
4.根据权利要求3所述的基于声纹特征识别主播的方法,其特征在于,所述将所述三元组输入至所述神经网络模型,之前还包括:
在所述神经网络模型的末端添加全连接层和softmax层;
每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;
其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:
以单个样本Fbank特征为所述神经网络模型的输入,以交叉...
【专利技术属性】
技术研发人员:张菁,姚嘉诚,卓力,李晨豪,王立元,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。