一种应急广播敏感词识别方法技术

技术编号:35340512 阅读:32 留言:0更新日期:2022-10-26 12:04
本发明专利技术提供了应急广播技术领域的一种应急广播敏感词识别方法,包括如下步骤:步骤S10、构建一Kaldi语音识别服务框架;步骤S20、获取大量的敏感词以及CMU词典,基于所述敏感词以及CMU词典创建一包含若干语料的语料库;步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取,得到若干个特征文件;步骤S40、将各所述特征文件输入Kaldi语音识别服务框架进行训练,得到一声学模型,并将所述声学模型发送给应急广播设备;步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。本发明专利技术的优点在于:极大的提升了应急广播敏感词识别的及时性以及准确性,极大的降低了识别成本。极大的降低了识别成本。极大的降低了识别成本。

【技术实现步骤摘要】
一种应急广播敏感词识别方法


[0001]本专利技术涉及应急广播
,特别指一种应急广播敏感词识别方法。

技术介绍

[0002]应急广播对广播内容的审查极其严格,对广播安全的要求更是严苛。因为应急广播覆盖到各个美丽乡村,是重要的宣传阵地,需要对应急广播的内容进行实时甄别、监控,避免出现一些异常和负能量的言论,出现异常管控的言论输入时,应急广播系统需要进行及时阻止,并发出告警。
[0003]目前应急广播接入信号源有麦克风、U盘、调频、线路等,其中麦克风的语音接入比较开放,自由度比较高,相对其他接入音源更加难监管。针对麦克风接入的信号源的监控(敏感词识别),传统上存在如下方法:
[0004]方法一:对麦克风播出的语音进行录音供后期审核和监管,该方法无法做到实时监控和及时制止非法广播内容。
[0005]方法二:在播出设备上安装ASR语音识别硬件模块,该方法不仅识别率低下、错误率高,而且不能及时的修正,遇到方言时更是无法识别。
[0006]方法三:在服务器端安装语音识别框架进行云识别计算,该方法会对学习的过程和交互的效本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应急广播敏感词识别方法,其特征在于:包括如下步骤:步骤S10、构建一Kaldi语音识别服务框架;步骤S20、获取大量的敏感词以及CMU词典,基于所述敏感词以及CMU词典创建一包含若干语料的语料库;步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取,得到若干个特征文件;步骤S40、将各所述特征文件输入Kaldi语音识别服务框架进行训练,得到一声学模型,并将所述声学模型发送给应急广播设备;步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。2.如权利要求1所述的一种应急广播敏感词识别方法,其特征在于:所述步骤S10具体为:先安装CUB库,在所述CUB库的基础上安装OpenFst工具、MFCCs提取工具以及语言模型工具,进而构建Kaldi语音识别服务框架。3.如权利要求2所述的一种应急广播敏感词识别方法,其特征在于:所述语言模型工具为IRSTLM或者Kaldi_lm。4.如权利要求1所述的一种应急广播敏感词识别方法,其特征在于:所述步骤S20具体为:获取大量的敏感词,将各所述敏感词转换为拼音并进行发音,基于所述发音获取各敏感词的敏感音素;通过librispeech下载包含若干个标准语料的CMU词典;通过人工匹配关联发音相近的所述标准语料,进而扩充所述CMU词典得到包含若干语料的语料库。5.如权利要求4所述的一种应急广播敏感词识别方法,其特征在于:所述标准语料为汉字、拼音、标准发音、标准音素的对应关系。6.如权利要求2所述的一种应急广播敏感词识别方法,其特征在于:所述步骤S30具体为:利用所述OpenFst工具对语料库中的各语料进行解码,利用所述MFCCs提取工具对各...

【专利技术属性】
技术研发人员:王闽
申请(专利权)人:福建新大陆通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1