基于声纹特征识别主播的方法及装置制造方法及图纸

技术编号:24097352 阅读:52 留言:0更新日期:2020-05-09 11:03
本发明专利技术实施例提供一种基于声纹特征识别主播的方法及装置,其中方法包括:从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。本发明专利技术实施例适应直播条件下识别主播的要求。

Method and device of speaker recognition based on voiceprint feature

【技术实现步骤摘要】
基于声纹特征识别主播的方法及装置
本专利技术涉及视频监控
,更具体地,涉及基于声纹特征识别主播的方法及装置。
技术介绍
网络直播,即互联网直播服务,是一种主播主导、全新的互联网视听节目,通常采用视频、音频、图文等形式,实时向公众播送各种咨询或节目等。截至2019年6月,我国网络直播用户规模达4.33亿,占网民整体的50.7%,其中真人秀直播的用户规模为2.05亿,占网民整体的24.0%。网络直播吸引着越来越多的用户,而经济利益的诱惑和监管上的疏漏等也导致了直播行业的各种乱象。部分主播为了自身利益,不择手段的吸引观众眼球,其手法主要分为两类。一类是涉嫌违法犯罪的行为,如淫秽色情表演、侵犯隐私、侵犯版权、虚假炒作、寻衅滋事、亵渎国家象征等;另一类是虽不触犯法律,但其行为影响恶劣,败坏社会风气的行为,如言语暴力低俗、攀比炫富、违规广告、虐杀动物,不尊重民族历史文化的内容等。这些主播并非不知道其直播内容不符合规章制度,更多的是抱有即使被所在平台封杀也可以换一个平台、账号继续直播的侥幸心理,导致此类行为屡禁不止。为了减少此类网络不良内容在互联网上的传播,需要对不良主播进行跨平台关联识别,从而净化互联网环境。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的基于声纹特征识别主播的方法及装置。第一个方面,本专利技术实施例提供一种基于声纹特征识别主播的方法,包括:从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。进一步地,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:将每一帧音频信息转换为Fbank特征;将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。进一步地,所述神经网络模型的训练方法为:构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。进一步地,所述将所述三元组输入至所述神经网络模型,之前还包括:在所述神经网络模型的末端添加全连接层和softmax层;每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:以单个样本Fbank特征为所述神经网络模型的输入,以交叉熵函数作为损失函数,计算单张人脸图像在所述神经网络模型中的损失和需要更新的参数。进一步地,所述神经网络模型为深度卷积神经网络模型。进一步地,将每一帧音频信息转换为Fbank特征,具体为:根据汉明窗对所述音频信息加窗,对加窗后的音频信息做快速傅里叶变换,获得频谱;对所述频谱求模平方,获得能量谱;根据若干个在Mel频标上线性分布的三角窗滤波器,对信号的能量谱进行滤波,对滤波结果求对数,获得每一帧音频信息的Fbank特征。第二个方面,本专利技术实施例提供一种基于声纹特征识别主播的装置,包括:声纹特征提取模块,用于从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;映射模块,用于根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;相似度计算模块,用于计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的基于声纹特征识别主播的方法及装置,通过获取不容易随直播环境变化而变化的声纹特征作为识别信息,通过局部敏感哈希方法先找出与待识别主播相似的少量样本主播,然后从少量样本主播中根据相似度大小确定真正的主播,提高了识别效率,适应直播条件下识别主播的要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的基于声纹特征识别主播的方法的流程示意图图2为本专利技术实施例的Fbank特征的提取方法的流程示意图;图3为本专利技术另一个实施例的基于声纹特征别主播的方法的流程示意图;图4为本专利技术实施例提供的基于声纹特征识别主播的装置的结构示意图;图5为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例的基于声纹特征识别主播的方法的流程示意图,如图1所示,该方法包括:S101、从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征。需要说明的,考虑到主播在直播过程中可能穿着不同的服装,本专利技术实施例将变化较小的声纹特征作为主播的特征。本专利技术实施例中主播的声纹特征是通过预先训练的神经网络模型获取的,可以理解的是,预习训练的神经网络模型以样本直播视频为样本,以样本直播视频中主播的声纹特征为标签训练而成。具体训练过程可以为,将样本直播视频输入至神经网络模型中,输出识别出的主播的声纹特征,将识别出的声纹特征与本文档来自技高网...

【技术保护点】
1.一种基于声纹特征识别主播的方法,其特征在于,包括:/n从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;/n根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;/n计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。/n

【技术特征摘要】
1.一种基于声纹特征识别主播的方法,其特征在于,包括:
从待识别主播的直播视频中截取若干帧音频信息,根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征;
根据局部敏感哈希方法将所述声纹特征存储至预先生成的哈希桶中,将与所述声纹特征处于同一哈希桶内的至少一个特征作为待匹配的样本主播的声纹特征;
计算所述样本主播的声纹特征与所述待识别主播的声纹特征间的相似度,将相似度最高的样本主播作为所述待识别主播。


2.根据权利要求1所述的基于声纹特征识别主播的方法,其特征在于,所述根据预先训练的神经网络模型,从所述若干帧音频信息中提取待识别主播的声纹特征,具体为:
将每一帧音频信息转换为Fbank特征;
将获得的所有Fbank特征输入至预先训练的神经网络模型中,输出声纹特征。


3.根据权利要求2所述的基于声纹特征识别主播的方法,其特征在于,所述神经网络模型的训练方法为:
构建若干个三元组,所述三元组包括基准、正样本和负样本,所述基准和正样本为由一个人的不同样本语音提取出的Fbank特征,所述负样本为另一个人的样本语音提取出的Fbank特征;
将所述三元组输入至所述神经网络模型,输出三元组中基准、正样本和负样本的特征向量;
计算所述基准的特征向量与正样本的特征向量间的余弦相似度以及所述基准的特征向量与负样本的特征向量间的余弦相似度;
根据两种余弦相似度确定三元组损失,根据所述三元组损失对所述神经网络模型进行优化。


4.根据权利要求3所述的基于声纹特征识别主播的方法,其特征在于,所述将所述三元组输入至所述神经网络模型,之前还包括:
在所述神经网络模型的末端添加全连接层和softmax层;
每次选择单个样本Fbank特征对所述神经网络模型进行训练,当训练次数达到预设阈值或者所述神经网络模型的损失小于预设要求时,删除所述全连接层和softmax层;
其中,所述每次选择单个样本Fbank特征对所述神经网络进行训练,具体为:
以单个样本Fbank特征为所述神经网络模型的输入,以交叉...

【专利技术属性】
技术研发人员:张菁姚嘉诚卓力李晨豪王立元
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1