假唱检测方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:30327766 阅读:16 留言:0更新日期:2021-10-10 00:17
本公开的实施方式提供了一种假唱检测方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。该方法包括:确定待检测音频对应的待检测音频特征;待检测音频特征通过对待检测音频指纹进行解码处理得到;确定待检测音频对应的参考音频的参考音频特征;参考音频特征通过对参考音频指纹进行解码处理得到;对待检测音频特征与参考音频特征进行相似度计算,以得到音色相似度;将音色相似度与相似度阈值进行对比,根据对比结果确定待检测音频的检测结果。本公开可以提取直播音频对应的音频指纹,在客户端与服务端之间传输,对直播音频进行假唱实时检测。进行假唱实时检测。进行假唱实时检测。

【技术实现步骤摘要】
假唱检测方法、装置、电子设备及计算机可读存储介质


[0001]本公开的实施方式涉及计算机
,更具体地,本公开的实施方式涉及假唱检测方法、假唱检测装置、计算机可读存储介质及电子设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前娱乐方式越来越多,网络直播为用户提供了越来越多的娱乐内容,例如,主播可以通过直播间演唱歌曲,用户可以通过直播间收听主播演唱的歌曲。主播在直播间演唱的优质歌曲片段,作为平台优质内容,将会被优先分发或推荐。目前,通常对主播的演唱进行机器打分,筛选出高分作品作为优先分发的内容,然而,机器打分无法识别主播演唱的歌曲是真实演唱还是放原唱对口型。
[0004]现有的一种基于机器视觉和语音信号处理相结合的假唱检测方法,是将现场录制的多媒体音频信号和视频信号相结合,并进行一系列分析过程后,确定真唱或假唱的结果。

技术实现思路

[0005]但是,现有的假唱检测方法在进行假唱判断时,除需要音频信息外,还需要视频信息;并且存在技术方式实现过程复杂,算法准确度不高,运算效率较低,无法支持实时检测等问题。
[0006]为此,本公开提出一种改进的假唱检测方法,以使在进行假唱检测时,仅需使用音频信息,通过对音频信息的音频指纹进行分析,计算量小,能够实时得出检测结果,并且可以有效提高检测准确率。
[0007]在本上下文中,本公开的实施方式期望提供一种假唱检测方法、假唱检测装置、计算机可读存储介质及电子设备。
[0008]在本公开实施方式的第一方面中,提供了一种假唱检测方法,包括:确定待检测音频对应的待检测音频特征;待检测音频特征通过对待检测音频指纹进行解码处理得到,待检测音频指纹是由客户端对待检测音频进行音频特征提取与编码处理所得到的;确定待检测音频对应的参考音频的参考音频特征;参考音频特征通过对参考音频指纹进行解码处理得到,参考音频指纹是由客户端对参考音频进行音频特征提取与编码处理所得到的;对待检测音频特征与参考音频特征进行相似度计算,以得到音色相似度;将音色相似度与相似度阈值进行对比,根据对比结果确定待检测音频的检测结果。
[0009]在本公开的一个实施例中,待检测音频特征包括待检测梅尔谱,确定待检测音频对应的待检测音频特征,包括:接收客户端发送的待检测音频指纹,对待检测音频指纹进行解码处理,得到对应的中间待检测特征数组;对中间待检测特征数组的数据进行数据格式转换处理,还原为初始待检测特征数组;获取预先配置的数据重组规则,根据数据重组规则对初始待检测特征数组进行重组处理,以得到待检测梅尔谱。
[0010]在本公开的一个实施例中,参考音频特征包括参考梅尔谱,确定待检测音频对应的参考音频的参考音频特征,包括:接收客户端发送的参考音频指纹,对参考音频指纹进行解码处理,得到对应的中间参考特征数组;对中间参考特征数组的数据进行数据格式转换处理,还原为初始参考特征数组;获取数据重组规则,根据数据重组规则对初始参考特征数组进行重组处理,以得到参考梅尔谱。
[0011]在本公开的一个实施例中,待检测音频特征包括待检测梅尔谱,参考音频特征包括参考梅尔谱;对待检测音频特征与参考音频特征进行相似度计算,以得到音色相似度,包括:获取预先构建的音频特征提取模型;音频特征提取模型基于包含多个表演者标签的测试音频训练得到;将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型,以分别得到对应的待检测特征向量与参考特征向量;计算待检测特征向量与参考特征向量之间的向量距离,以得到音色相似度。
[0012]在本公开的一个实施例中,音频特征提取模型通过下述步骤训练得到:获取多个包含表演者标签的测试音频,根据多个测试音频生成音频训练集;音频训练集包括被测音频、同源被测音频与异源被测音频;获取预先构建的初始模型,根据被测音频、同源被测音频与异源被测音频确定损失函数;基于损失函数对初始模型进行训练,直至损失函数收敛,得到表演者识别网络;根据表演者识别网络确定音频特征提取模型。
[0013]在本公开的一个实施例中,音频特征提取模型包括多个第一卷积层、与各第一卷积层对应的池化层以及第二卷积层;将待检测梅尔谱与参考梅尔谱输入至音频特征提取模型,以分别得到对应的待检测特征向量与参考特征向量,包括:由各第一卷积层与各池化层对待检测梅尔谱进行特征提取,得到初始待检测特征;由第二卷积层对初始待检测特征进行卷积处理,得到待检测特征向量;由各第一卷积层与各池化层对参考梅尔谱进行特征提取,得到初始参考特征;由第二卷积层对初始参考特征进行卷积处理,得到参考特征向量。
[0014]在本公开实施方式的第二方面中,提供了一种假唱检测方法,应用于客户端,包括:获取待检测音频,并确定与待检测音频对应的参考音频;待检测音频基于实时获取的待检测实时音频得到;分别对待检测音频与参考音频进行音频特征提取,以得到对应的待检测音频特征与参考音频特征;对待检测音频特征进行编码处理,以得到对应的待检测音频指纹;对参考音频特征进行编码处理,以得到对应的参考音频指纹;将待检测音频指纹与参考音频指纹发送至服务端,以由服务端对待检测音频指纹与参考音频指纹进行解码处理,分别得到对应的待检测音频特征与参考音频特征;对待检测音频特征与参考音频特征进行相似度计算,得到音色相似度,以根据音色相似度确定待检测音频的检测结果。
[0015]在本公开的一个实施例中,获取待检测音频,并确定与待检测音频对应的参考音频,包括:获取待检测实时音频;确定音频截取时长,根据音频截取时长从待检测实时音频中确定待检测音频;获取与待检测音频对应的原始参考音频;确定待检测音频对应的目标位置,根据目标位置从原始参考音频中确定参考音频。
[0016]在本公开的一个实施例中,根据音频截取时长从待检测实时音频中确定待检测音频,包括:确定截取音频的第一候选起始点;根据第一候选起始点与音频截取时长进行音频截取操作,从待检测实时音频中确定待检测音频区间;确定待检测音频区间中包含的音符加和时长;如果音符加和时长大于等于音符时长阈值,则将待检测音频区间中包含的音频确定为待检测音频。
[0017]在本公开的一个实施例中,上述方法还包括:如果音频加和时长小于音符时长阈值,则根据第一候选起始点与音频截取时长确定第二候选起始点;根据第二候选起始点与音频截取时长重新进行音频截取操作,直至确定出待检测音频。
[0018]在本公开的一个实施例中,待检测音频特征包括待检测梅尔谱,参考音频特征包括参考梅尔谱;分别对待检测音频与参考音频进行音频特征提取,以得到对应的待检测音频特征与参考音频特征,包括:确定音频采样频率以及音频提取窗函数;根据音频采样频率与音频提取窗函数分别对待检测音频与参考音频进行频谱计算,以得到对应的待检测音频频谱与参考音频频谱;获取预先配置的频带值,采用频带值并通过音频滤波器对待检测音频频谱进行处理,得到待检测梅尔谱;采用频带值并通过音频滤波器对参考音频频谱进行处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种假唱检测方法,其特征在于,应用于服务端,包括:确定待检测音频对应的待检测音频特征;所述待检测音频特征通过对待检测音频指纹进行解码处理得到;确定所述待检测音频对应的参考音频的参考音频特征;所述参考音频特征通过对参考音频指纹进行解码处理得到;对所述待检测音频特征与所述参考音频特征进行相似度计算,以得到音色相似度;将所述音色相似度与相似度阈值进行对比,根据对比结果确定所述待检测音频的检测结果;其中,所述待检测音频指纹与所述参考音频指纹是由客户端分别对所述待检测音频与所述参考音频进行音频特征提取与编码处理所得到的。2.根据权利要求1所述的方法,其特征在于,所述待检测音频特征包括待检测梅尔谱,所述参考音频特征包括参考梅尔谱;所述对所述待检测音频特征与所述参考音频特征进行相似度计算,以得到音色相似度,包括:获取预先构建的音频特征提取模型;所述音频特征提取模型基于包含多个表演者标签的测试音频训练得到;将所述待检测梅尔谱与所述参考梅尔谱输入至所述音频特征提取模型,以分别得到对应的待检测特征向量与参考特征向量;计算所述待检测特征向量与所述参考特征向量之间的向量距离,以得到所述音色相似度。3.根据权利要求2所述的方法,其特征在于,所述音频特征提取模型包括多个第一卷积层、与各所述第一卷积层对应的池化层以及第二卷积层;所述将所述待检测梅尔谱与所述参考梅尔谱输入至所述音频特征提取模型,以分别得到对应的待检测特征向量与参考特征向量,包括:由各所述第一卷积层与各所述池化层对所述待检测梅尔谱进行特征提取,得到初始待检测特征;由所述第二卷积层对所述初始待检测特征进行卷积处理,得到所述待检测特征向量;由各所述第一卷积层与各所述池化层对所述参考梅尔谱进行特征提取,得到初始参考特征;由所述第二卷积层对所述初始参考特征进行卷积处理,得到所述参考特征向量。4.一种假唱检测方法,其特征在于,应用于客户端,包括:获取待检测音频,并确定与所述待检测音频对应的参考音频;所述待检测音频基于实时获取的待检测实时音频得到;分别对所述待检测音频与所述参考音频进行音频特征提取,以得到对应的待检测音频特征与参考音频特征;对所述待检测音频特征进行编码处理,以得到对应的待检测音频指纹;对所述参考音频特征进行编码处理,以得到对应的参考音频指纹;将所述待检测音频指纹与所述参考音频指纹发送至服务端,以由服务端对所述待检测音频指纹与所述参考音频指纹进行解码处理,分别得到对应的所述待检测音频特征与所述参考音频特征;对所述待检测音频特征与所述参考音频特征进行相似度计算,得到音色相
似度,以根据所述音色相似度确定所述待检测音频的检测结果。5.根据权利要求4所述的方法,其特征在于,所述待检测音频特征包括待检测梅尔谱,所述参考音频特征包括参考梅尔谱;所述分别对所述待检测音频与所述参考音频进行音频特征提取,以得到对应的待检测音频特征与参考音频特征,包括:确定音...

【专利技术属性】
技术研发人员:高月洁郑博刘华平曹偲
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1