【技术实现步骤摘要】
一种黑广播音频识别方法
本专利技术涉及黑广播识别领域,特别涉及一种黑广播音频识别方法。
技术介绍
随着信息技术和广播传媒技术的发展,黑广播近些年也愈发引起了人们的关注。黑广播具有显著的社会危害性。黑广播基站大多架设在居民小区,严重影响人民身体健康;黑广播充斥大量的虚假信息,如假药、假冒伪劣产品等;黑广播甚至影响家庭及社会的安定团结。因此,要坚决打击黑广播。打击黑广播的前提是有效地发现黑广播。但是,黑广播的技术也在不断发展,黑广播的表现更加具有隐蔽性:某些黑广播甚至占用了正常广播的播放频点;播放内容更加“像”正常的广播内容。因此,要识别黑广播,需要使用更加综合化和智能化的技术手段和处理方法。音频比对是发现黑广播的有效思路,其核心思想是:在某一个点位接收某频点的广播音频信号,把该信号回传至比对中心。在比对中心,对回传音频和基准音频进行比较,若发现不一致,则说明该点位接收到的这个频点信号为黑广播信号,该点位周边可能存在黑广播信号源。就音频比对技术上,陈玉洁等描述了广西电台中使用的音频比对系统及方法:将源自调音台的AES信号 ...
【技术保护点】
1.一种黑广播音频识别方法,其特征在于,包括:/nS1、提取回传音频和基准音频的信号特征;/nS2、提取回传音频和基准音频的语义特征;/nS3、分别针对信号特征和语义特征对回传音频和基准音频进行信号相似性和语义相似性计算;/nS4、首先根据语义相似性比对,若语义相似性比对判决为高相似,得到比对结果;若语义相似性比判决为低相似则进行信号相似性比对,得到比对结果,根据比对结果完成对黑广播音频的识别。/n
【技术特征摘要】
1.一种黑广播音频识别方法,其特征在于,包括:
S1、提取回传音频和基准音频的信号特征;
S2、提取回传音频和基准音频的语义特征;
S3、分别针对信号特征和语义特征对回传音频和基准音频进行信号相似性和语义相似性计算;
S4、首先根据语义相似性比对,若语义相似性比对判决为高相似,得到比对结果;若语义相似性比判决为低相似则进行信号相似性比对,得到比对结果,根据比对结果完成对黑广播音频的识别。
2.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S1中,信号特征为包括频谱质心、短时平均能量和短时过零率,均通过解码后的音频文件的频率数据计算而来。
3.根据权利要求1所述的黑广播音频识别方法,其特征在于,ss1S2具体包括:
S21、通过多个语音识别接口识别音频文件,得到对应接口输出的多个文本;
S22、分别对输出文本进行词频分析形成词频字典;
S23、对多个接口输出文本形成的词频字典进行汇总,对权重相加,汇总的词频字典中词频大于设定门限的词汇作为关键词,得到音频的语义特征。
4.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S21中,语音识别接口包括3个,至少包括1个网络接口和1个本地接口。
5.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S22中,词频分析形成词频字典的具体过程为:
S221、对文本进行分词,存放在分词数组中,初始化词频词典,设定分词数组下标i=0
S222、取分词数组第i个词汇,判断该词汇是否为虚词,是则进入S,否则进入S2,
S223、判断该词是否在词典中,是则将词典中的该词汇频数加1,否则,将该词汇加入词典,并将该词汇的频数置为1;
S224、判断是否遍历完分词数组,否则进入S5,是则i的值加1,并进入S2;
S225、形成词频词典。
6.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S23具体包括,
S231、将词频词典进行汇总:
其中,其中,j=0时表示基准音频词频词典,j=1时表示回传音频词频词典。表示基准音频中的词汇,表示该词汇的词频数;表示回传音频中的词汇,表示该词汇的词频数,...
【专利技术属性】
技术研发人员:郑鑫,汤善武,
申请(专利权)人:成都华乾科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。