基于人员隐私保护的视频水声检测方法及装置制造方法及图纸

技术编号:34385349 阅读:21 留言:0更新日期:2022-08-03 21:07
本发明专利技术公开一种基于人员隐私保护的视频水声检测方法及装置。该方法将声道混合分为新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,

【技术实现步骤摘要】
基于人员隐私保护的视频水声检测方法及装置


[0001]本专利技术涉及导管定位
,尤其涉及一种基于人员隐私保护的视频水声检测方法及装置。

技术介绍

[0002]目前在声音检测算法领域,常用的算法有基于参数模型的隐马尔可夫模型(HMM)的方法。HMM是马尔科夫链的一种,它的状态不能被直接观察到,只能通过观测向量序列观察到,每个观测向量都是通过概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。自从20世纪80年代,HMM被应用于声音识别,取得巨大成功。随着时间的发展,HMM在多领域中都取得不错的成绩。视频水声检测在很多领域有着广泛的应用,但目前的声音识别项目中,大部分都不注重声音隐私保护,在输入的音频中,可能出现用户隐私,如果声音音频文件被泄露,会造成隐私泄露的风险。因此,有必要提出一种基于人员隐私保护的视频水声检测方法及装置,以解决上述问题。

技术实现思路

[0003]本专利技术提供一种基于人员隐私保护的视频水声检测方法及装置,以解决目前的声音识别项目中,大部分都不注重声音隐私保护,在输入的音频中,可能出现用户隐私,如果声音音频文件被泄露,会造成隐私泄露的风险的问题。
[0004]第一方面,本专利技术提供一种基于人员隐私保护的视频水声检测方法,包括:
[0005]获取采集到的视频数据中的音频数据;
[0006]使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,

100,

100,100;
[0007]将消除人声处理后的整段的音频数据分割成数段音频数据,每段音频数据时长为2S;
[0008]对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理;
[0009]对处理后的每段音频数据求取梅尔倒谱矩阵;
[0010]将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
[0011]进一步地,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述归一化、分帧、加窗包括:
[0012]找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在+1到

1之间;
[0013]将音频数据进行划分,划分成N个帧,并对每个帧进行海明窗滤波。
[0014]进一步地,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述去噪处理包括:
[0015]将音频信号在频域中根据公式:
[0016][0017]算出纯净信号功率谱,其中,Yw(ω)表示带噪信号功率,Nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0018]进一步地,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,所述预先训练的隐马尔科夫模型的训练过程如下:
[0019]将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2S的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存;
[0020]将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成N个帧,并对每个帧进行海明窗滤波;
[0021]将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:
[0022]其中,Yw(ω)表示带噪信号功率,Nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0023]将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用Viterbi算法计算HMM输出所有训练声音观测序列的概率P(0/λ),并累加得到∑1中,再用Baum—Welch算法对模型参数进行重估,得到再用Viterbi算法计算HMM输出所有训练声音观测序列的概率并累加得到Σ1,将Σ1和Σ2结果进行比较,判断差值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入P(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。
[0024]进一步地,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率P(0/λ),其中P(0/λ)最大的模型所对应的声音样本即为识别结果。
[0025]第二方面,本专利技术提供一种基于人员隐私保护的视频水声检测装置,包括:
[0026]获取单元,用于获取采集到的视频数据中的音频数据;
[0027]消除单元,用于使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,

100,

100,100;
[0028]分割单元,用于将消除人声处理后的整段的音频数据分割成数段音频数据,每段
音频数据时长为2S;
[0029]处理单元,用于对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理;
[0030]求取单元,用于对处理后的每段音频数据求取梅尔倒谱矩阵;
[0031]识别单元,用于将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
[0032]进一步地,所述处理单元,用于按照以下方式对分割后的每段音频数据进行归一化、分帧、加窗处理:找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在+1到

1之间;将音频数据进行划分,划分成N个帧,并对每个帧进行海明窗滤波。
[0033]进一步地,所述处理单元,用于按照以下方式对分割后的每段音频数据进行去噪处理:
[0034]将音频信号在频域中根据公式:
[0035][0036]算出纯净信号功率谱,其中,Yw(ω)表示带噪信号功率,Nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0037]进一步地,所述预先训练的隐马本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人员隐私保护的视频水声检测方法,其特征在于,包括:获取采集到的视频数据中的音频数据;使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,

100,

100,100;将消除人声处理后的整段的音频数据分割成数段音频数据,每段音频数据时长为2S;对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理;对处理后的每段音频数据求取梅尔倒谱矩阵;将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。2.如权利要求1所述的基于人员隐私保护的视频水声检测方法,其特征在于,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述归一化、分帧、加窗包括:找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在+1到

1之间;将音频数据进行划分,划分成N个帧,并对每个帧进行海明窗滤波。3.如权利要求2所述的基于人员隐私保护的视频水声检测方法,其特征在于,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述去噪处理包括:将音频信号在频域中根据公式:算出纯净信号功率谱,其中,Yw(ω)表示带噪信号功率,Nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。4.如权利要求1所述的基于人员隐私保护的视频水声检测方法,其特征在于,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,所述预先训练的隐马尔科夫模型的训练过程如下:将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2S的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存;将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成N个帧,并对每个帧进行海明窗滤波;将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:其中,Yw(ω)表示带噪信号功率,Nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅
里叶变换来恢复时域信号;将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用Viterbi算法计算HMM输出所有训练声音观测序列的概率P(0/λ),并累加得到∑1中,再用Baum—Welch算法对模型参数进行重估,得到再用Viterbi算法计算HMM输出所有训练声音观测序列的概率并累加得到Σ1,将Σ1和Σ2结果进行比较,判断差值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入P(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。5.如权利要求1所述的基于人员隐私保护的视频水声检测方法,其特征在于,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率P(0/λ),其中P(0/λ)最大的模型所对应的...

【专利技术属性】
技术研发人员:武文孟庆超王俊杰
申请(专利权)人:南京惠积信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1