一种陆空通话端点检测方法技术

技术编号:33930860 阅读:53 留言:0更新日期:2022-06-25 22:26
本发明专利技术提出了一种陆空通话端点检测方法。首先,对数据进行预处理;然后选用短时能量、短时过零率及谱熵三种特征进行融合获得融合特征;接着,在获得陆空通话音频EZH特征值的基础上,使用结合FINCH聚类的双门限值估计算法对双门限法所需的高低门限值进行估计;最后,利用获得的高低门限值进行双门限法判决,确定陆空通话中语音的开始点和结束点,完成陆空通话的端点检测。的端点检测。的端点检测。

【技术实现步骤摘要】
一种陆空通话端点检测方法


[0001]本专利技术涉及航空安全领域,具体为一种陆空通话端点检测方法。

技术介绍

[0002]航空安全是民用航空运输业的重中之重。陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,它以国际民航组织(ICAO)《无线电通话手册》和《中国民用航空无线电通话手册》为依据而制定的,对于飞行安全意义重大。依据统计数据可知,陆空通话错误引起的安全事故占所有安全事故的41%。
[0003]目前,对陆空通话的分析大多依赖于人工,需要专业人士承担这项任务。随着陆空通话量的增加,人工负担越来越重,已难以胜任。因此针对陆空通话展开研究,探索自动化与智能化分析陆空通话的方法,研究适用于陆空通话的端点检测方法,端点检测的目的是识别出语音部分和非语音部分,判断语音信号的起点和终点,是说话人识别的前置工作,其准确性对后续说话人识别准确率具有重要影响。
[0004]现有语音端点检测的方法主要可分为两大类别:基于声学特征、基于模式识别。其中基于声学特征的方法不仅严重依赖于信号处理的先验知识,而且需要建立在噪声平稳的假设之上,应用范围严重受限,在低信噪、非平稳的噪声场景中效果很差;基于模式识别的方法需要大量的数据作为基础,尤其有监督的深度学习方法需要大量有标记的数据来保证模型的性能,实践难度较大。且由于基于模式识别的方法,需要通过训练建立模型,算法相对繁琐,计算量较大,不利于实时应用。目前仍然没有有效的陆空通话端点检测方法。

技术实现思路

[0005](一)专利技术的目的
[0006]本专利技术主要用于检测陆空通话场景下的语音端点。通过选用短时能量、短时过零率及谱熵三种特征进行融合获得融合特征;然后在FINCH聚类算法的基础上设计了双门限值估计方法,从而检测到陆空通话场景下的语音端点。
[0007](二)技术方案
[0008]为了实现上述目的,本专利技术的方法所采用的技术方案是:首先,对数据进行预处理;然后选用短时能量、短时过零率及谱熵三种特征进行融合获得融合特征;接着,在获得陆空通话音频EZH特征值的基础上,使用结合FINCH聚类的双门限值估计算法对双门限法所需的高低门限值进行估计;最后,利用获得的高低门限值进行双门限法判决,确定陆空通话中语音的开始点和结束点,完成陆空通话的端点检测。
[0009]选用短时能量、短时过零率及谱熵三种特征进行融合获得融合特征,融合得到的特征拥有更加优秀的抗噪性能,在低信噪比条件下依旧可以对陆空通话的语音和非语音做出区分,且此特征对陆空通话的语音和非语音的变化敏感,也有效解决陆空通话语音短间隔问题。
[0010]在FINCH聚类算法的基础上设计了双门限值估计方法,依靠FINCH聚类算法无需超
参数的特点,对陆空通话音频的融合特征样本集自适应地估计高低门限值,增强泛化能力。FINCH算法时间复杂度较低,能够快速完成聚类分析,从而保证结合FINCH聚类的双门限值估计方法满足实时性要求。
[0011](三)有益效果
[0012]本专利技术的有益效果为:通过对陆空通话音频信号进行处理,选用不同维度的特征获得融合特征,然后在获得融合特征值的基础上,对双门限法所需要的高低门限值进行估计,最后通过高低门限值进行双门限法判决,从而准确判断出陆空通话语音的端点,为陆空通话的进一步研究提供基础。
附图说明:
[0013]图1是面向陆空通话的端点检测技术流程图。
具体实施方式:
[0014]陆空通话音频信号是模拟信号,因此对陆空通话音频信号进行数字处理之前需要做预处理。预处理阶段主要包含三个步骤:预加重、分帧和加窗。
[0015]预加重处理实际上是将陆空通话语音信号通过一个高通滤波器进行处理,处理方法如下:
[0016]y
n
=x
n

α
·
x
n
‑1ꢀꢀꢀ
(1)
[0017]其中,x
n
表示第n时刻语音采样值,y
n
表示第n时刻语音的输出值,α表示预加重系数,其取值范围为0.9≤α≤1。
[0018]分帧是将陆空通话语音信号根据时间分为不同的帧。陆空通话语音信号是一种准平稳信号,但是它可以在0~30毫秒内被视为平稳信号。因此,可以将10~30毫秒的语音信号定义为一帧。
[0019]采用汉明窗进行加窗操作,以达到减少频域泄露的目的。汉明窗的定义如下:
[0020][0021]其中,ω(n)表示第n个信号值对应的窗函数,N为一帧的长度,a为常数参数一般取值为0.46。
[0022]经加窗处理后的信号如下所示:
[0023]S

i
(n)=S
i
(n)
×
w(n)
ꢀꢀꢀ
(3)
[0024]其中,S
i
(n)表示第i帧第n个语音信号,S

i
(n)表示经过加窗处理后的第i帧第n个语音信号。
[0025]从陆空通话音频中提取的短时能量、短时过零率、谱熵特征具有以下数值特征:在陆空通话语音末端之后的噪声段,短时能量值处于较低水平接近于零值,短时过零率和谱熵数值处于较高水平;陆空通话语音末端前的语音段,短时能量数值较低,而短时过零率和谱熵数值较高。为准确检测陆空通话语音的端点,结合三种特征的数值表现对三种特征进行融合。对三种特征都进行标准化处理,将数值映射到[0,1]内。
[0026]将从陆空通话音频中提取的短时能量序列E、短时过零率序列Z、谱熵序列H经标准化处理后获得E'、Z'、H'。然后,依照下式进行特征融合获得融合特征。
[0027]EZH(i)=E'(i)Z'(i)H'(i)
ꢀꢀꢀ
(4)
[0028]其中,E'(i)表示第i帧的标准化短时能量值,Z'(i)表示第i帧的标准化短时过零率,H'(i)表示第i帧的标准化谱熵值。
[0029]为满足陆空通话端点检测任务的实时性和泛化性需求,设计结合FINCH聚类算法的双门限值估计方法,增强端点检测模型对复杂噪声情况的适应能力。
[0030]在数据集中,每个数据仅需要找到与自己最近似的一个数据就足以发现整个族群,无需计算所有数据点之间的距离,仅需要发现距离自己最近一个特征点,即可寻找到该数据所归属族群。计算邻接矩阵方法如下:
[0031][0032]其中,代表第i个数据点的最近邻点,A是数据的邻接矩阵。
[0033]构建邻接矩阵后,可计算得到多个有向图,每个有向图代表一个聚类族群。对每个有向图计算特征中心构成新的样本数据,然后重复上述步骤重新进行聚类。当所有的样本都被聚类成两类,对应陆空通话音频中的语音和非语音,则可停止聚类,然后分别计算两聚类族群的中心m1、m2。估计高低门限值方法如下:
[0034][0035][0036]其中,M
voice
和M
no本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种陆空通话端点检测方法,其特征在于,对陆空通话语音进行预处理,选用不同维度的三种特征进行融合获得融合特征;然后在FINCH聚类算法的基础上设计了双门限值估计方法,从而检测到陆空通话场景下的语音端点。2.根据权利要求1所述的一种陆空通话端点检测方法,其特征在于,获得陆空通话语音的融合特征。3.根据权利要求2所述的获得陆空通话语音的融合特征,其特征在于,对通话语音进行预加重、分帧和加窗预处理,然后选用短时能量、短时过零率、...

【专利技术属性】
技术研发人员:宋金溪许刚
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1