基于深度学习的列车广播语音增强方法和系统技术方案

技术编号:32504456 阅读:25 留言:0更新日期:2022-03-02 10:14
本发明专利技术公开了一种基于深度学习的列车广播语音增强方法和系统,其方法包括获取车载PIS系统的列车运行信息;识别列车运行信息,确定列车实时场景;从预设的数据库中读取列车实时场景所匹配的声学均衡参数;获取车载PIS系统的音频流;以及,基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。本申请具有能结合列车不同运营场景自动切换声场均衡参数,动态增加声场的效果。动态增加声场的效果。动态增加声场的效果。

【技术实现步骤摘要】
基于深度学习的列车广播语音增强方法和系统


[0001]本申请涉及音频处理
,尤其是涉及一种基于深度学习的列车广播语音增强方法和系统。

技术介绍

[0002]对于列车而言,其站点播报、消息通知等均需要通过广播进行通知。然而,在列车运行过程中,除了内部乘客发出的噪声外,还有列车外部的风噪、机械噪声等,干扰了语音播报效果。
[0003]申请号为CN201710105745.8的专利一种基于ARM+FPGA架构的列车语音放大单元,该列车语音放大单元包括主控制模块、编解码放大模块和通信模块三部分。主控制模块包括主控芯片及外围器件,负责系统的初始化、音频存储与处理,以及运行应用程序和AGC、限幅限频算法。编解码放大模块包括编解码子模块、功放子模块和检测子模块,负责对各种格式的音频信号进行处理与放大,同时实现电流检测以及音频降级功能。通信模块包括两路千兆以太网和RS485及RS232总线,负责音频与噪检信号传输。各功能模块协调工作,构成了完整的语音放大单元。
[0004]上述技术方案给出了一种用于列车使用环境的音频芯片,但是其无法结合地铁列车乘客信息系统的相关信息,对不同运营场景自动切换声场均衡参数,动态增加声场,因此本申请提出一种新的技术方案。

技术实现思路

[0005]为了能结合列车不同运营场景自动切换声场均衡参数,动态增加声场,本申请提供一种基于深度学习的列车广播语音增强方法和系统。
[0006]第一方面,本申请提供一种基于深度学习的列车广播语音增强方法,采用如下的技术方案:一种基于深度学习的列车广播语音增强方法,包括:获取车载PIS系统的列车运行信息;识别列车运行信息,确定列车实时场景;从预设的数据库中读取列车实时场景所匹配的声学均衡参数;获取车载PIS系统的音频流;以及,基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。
[0007]可选的,所述中控声效算法包括:信号预处理,其包括将音频流做满足FPU计算的归一化处理;均衡处理,其包括划分10个频率段,以所述声学均衡参数对划分后的10个频率段分别做均衡,调整增益,并进行混音处理;其中,各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k;
回响处理,其包括对音频中的原始声音衰减复制,复制至相应的音频位置与原后续音频进行混音。
[0008]可选的,所述划分10个频率段包括:以IIR带通滤波器对音频流做频率段划分处理。
[0009]可选的,所述调整增益包括:每段的调整幅度为

12dBm至12dBm。
[0010]可选的,所述识别列车运行信息,确定列车实时场景包括:当列车运行信息识别为速度信息,且为0

Xkm/H,则判定为启动场景; X

0KM/H,则判定为停靠场景;其他则判定运行场景;其中,X为低速阈值;当列车运行信息识别为指定识别信息,则判定为预匹配的指定场景。
[0011]可选的,所述识别列车运行信息,确定列车实时场景包括:当列车运行信息识别为视频信息,则对视频信息做图像识别,识别统计实时人流量,并判断是否超出高峰人流阈值或低于低峰人流阈值,如果是,则判定为高峰人流场或低峰人流场景。
[0012]可选的,还包括:记录过程信息,绑定时间参数,存为音频改造档案;利用音频改造档案训练预设的神经网络模型;以训练后的神经网络模型识别后续的实时音频流,如果存在记录,且列车当前环境匹配记录信息,则调取记录中的处理后音频流发送至车载PIS系统用作播放。
[0013]第二方面,本申请提供一种基于深度学习的列车广播语音增强系统,采用如下的技术方案:一种基于深度学习的列车广播语音增强系统,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种基于深度学习的列车广播语音增强方法的计算机程序。
[0014]综上所述,本申请包括以下至少一种有益技术效果:本方法可以针对列车的不同场景定制特有声学均衡参数,根据原始声音,模拟出回响的效果,使用户感受到场景深度及场景材质的变化,调整如声音可懂度、声音感受位置,增加声音的饱满度、可懂度,从而改善列车环境的语音播报效果;同时,不需要改动车载PIS原有系统即可完成,成本更低,实现难度更小。
附图说明
[0015]图1是本申请的方法的流程示意图;图2是本申请的中控声效算法的流程示意图。
具体实施方式
[0016]以下结合附图1

2对本申请作进一步详细说明。
[0017]本申请实施例公开一种基于深度学习的列车广播语音增强方法,其可通过处理单元加载执行一对应的计算机程序实现。
[0018]实施例1:参照图1,基于深度学习的列车广播语音增强方法包括:
S101、获取车载PIS系统的列车运行信息。
[0019]上述车载PIS系统,即乘客信息系统。在本申请中,列车运行信息包括:速度信息(车速)、视频信息以及指定识别信息,其用于判别列车实时所处的场景。
[0020]且,车速0

30KM/H时,认定为启动场景;车速30

0KM/H时,认定为停靠场景;其他车速,认定为运行场景;需要注意的是,上述30为赋值给低速阈值X的数,具体可以根据车型、运营环境选定。
[0021]上述视频信息为列车各个站点,如候车站台所安装的摄像头采集的视频流。指定识别信息,则可以是列车进入各个区域,如地下车站、高架车站等环境时反馈的位置信息。
[0022]S102、识别列车运行信息,确定列车实时场景。
[0023]可以理解的是,一、可以根据车速确定列车在启动、停靠,还是在运行。
[0024]二、基于视频信息判定场景;具体地:加载一具有人流统计功能的图像识别系统对视频信息做处理,获取候车站台的实时人流量;当实时人流量超出高峰人流阈值,则确定为高峰人流场景;当实时人流量低于低峰人流阈值,则确定为低峰人流场景。
[0025]三、基于指定识别信息判定场景;具体地:当从车载PIS系统所获取的列车位置信息符合预设的某一指定识别信息,即判定为该指定识别信息对应的场景。
[0026]S103、从预设的数据库中读取列车实时场景所匹配的声学均衡参数。
[0027]可以理解的是,在本方法执行前,可由工作人员基于验证所得建立各个列车实时场景一一对应各个声学均衡参数的关系数据,并存储入数据库中等待调用。
[0028]S104、获取车载PIS系统的音频流。
[0029]上述音频流,即车载PIS系统中控发出的,随后需要由功放模块进行播放的音频信息。
[0030]S105、基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。
[0031]根据上述内容,本方法可以针对不同场景定制特有声学均衡参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的列车广播语音增强方法,其特征在于,包括:获取车载PIS系统的列车运行信息;识别列车运行信息,确定列车实时场景;从预设的数据库中读取列车实时场景所匹配的声学均衡参数;获取车载PIS系统的音频流;以及,基于声学均衡参数,以预设的中控声效算法对音频流处理,同时调整声音感受位置,并发送处理后音频流至车载PIS系统用作播放。2.根据权利要求1所述的基于深度学习的列车广播语音增强方法,其特征在于,所述中控声效算法包括:信号预处理,其包括将音频流做满足FPU计算的归一化处理;均衡处理,其包括划分10个频率段,以所述声学均衡参数对划分后的10个频率段分别做均衡,调整增益,并进行混音处理;其中,各个频率段的中心频点分别为32、64、128、256、512、1k、2k、4k、8k、16k;回响处理,其包括对音频中的原始声音衰减复制,复制至相应的音频位置与原后续音频进行混音。3.根据权利要求2所述的基于深度学习的列车广播语音增强方法,其特征在于:所述划分10个频率段包括:以IIR带通滤波器对音频流做频率段划分处理。4.根据权利要求2所述的基于深度学习的列车广播语音增强方法,其特征在于:所述调整增益包括:每段的调整幅度为

12dBm至12dBm。5.根据权利要求1所述的基于深度学习的...

【专利技术属性】
技术研发人员:李跃群张有利
申请(专利权)人:深圳市北海轨道交通技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1