【技术实现步骤摘要】
一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
[0001]本公开的实施例涉及语音识别
,具体涉及中英文混合的离线语音关键词识别方法及其系统。
技术介绍
[0002]语音关键词识别技术是自动语音识别领域的一个研究分支,自动语音识别技术需要对采集到的连续语音流进行完整的解码转换,对硬件计算能力要求更高,常常采用数据上传云端计算的在线识别方式,在网络离线时识别效果急剧下降,在线识别也存在着数据上传云端时的隐私泄露风险。语音关键词识别只关注关键词部分,对硬件依赖较低,可以在本地完成解码计算,从而实现离线识别,在军事领域、空中交通管制领域、语音监听领域等特定场景有着广阔的应用前景。
[0003]语音关键词识别最早开始于20世纪70年代,经过多年的技术发展与积累,语音关键词识别算法,大致可以分为两类。一类是基于音素补白模型的语音关键词识别,该种方法将待识别语音看作是由关键词和非关键词两部分组成,另一类是基于模板匹配的语音关键词识别,该种方法将待识别语音直接与关键词模板语音进行对比,计算距离差异。
...
【技术保护点】
【技术特征摘要】
1.一种中英文混合的离线语音关键词识别方法,包括:获取语音数字信号,对其进行语音活动检测,得到待识别语音段;定义自适应关键词匹配窗口,分割待识别语音段;对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量;分析特定场景下的自定义关键词列表,以及结合预先训练的音素补白模型,得到自定义关键词的中文解码网络空间和英文解码网络空间;将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果;对所述识别结果后处理,生成目标识别结果作为输出。2.根据权利要求1所述的方法,其中,所述语音活动检测包括:定义语音采集的参数信息,调用音频处理接口以如下参数对原始语音进行量化处理:采样频率为16000Hz,声道数为1,每一个语音块包含的语音帧数为1024,得到第n时刻的量化处理的语音帧编码信息x(n)=(x1(n),x2(n),...,x
m
(n)),k个语音帧编码信息组合得到t1到t
k
时间段内的原始语音块信息f=(x(t1),x(t2),...,x(t
k
));对所述量化处理的语音帧编码信息计算平均声音强度如下:其中,n表示第n时刻,x表示语音帧编码信息,x(n)表示第n时刻采集到的语音帧编码信息,x1(n)表示第n时刻采集到的语音帧编码信息中的第1位,x2(n)表示第n时刻采集到的语音帧编码信息中的第2位,x
m
(n)表示第n时刻采集到的语音帧编码信息中的第m位,f表示原始语音块信息,t表示时刻,t1表示第1个时刻,t2表示第2个时刻,t
k
表示第k个时刻,x(t1)表示t1时刻采集到的语音帧编码信息,x(t2)表示t2时刻采集到的语音帧编码信息,x(t
k
)表示t
k
时刻采集到的语音帧编码信息,threshold表示平均声音强度也作为当前环境下的静音阈值,γ表示影响因子,具体取值为γ=2.5,k表示序号,i表示序号,m表示语音帧编码信息的数量,x
i
表示语音帧编码信息中的第i位,x
i
(n)表示第n时刻采集到的语音帧编码信息中的第i位;分析声音强度变化,当关键词识别完成或长时间没有声音强度超过该阈值时,动态更新静音阈值。3.根据权利要求2所述的方法,其中,所述定义自适应关键词匹配窗口,包括:对照关键词列表计算平均关键词长度为:其中,l表示平均关键词长度,n表示关键词数量,i表示序号,l
i
表示第i个关键词的长度;以平均关键词长度为依据定义匹配窗口的长度wnd和窗口移动的距离rwnd,wnd满足1.5l≤wnd≤2l,当识别到关键词时rwnd=0.8l,如果未识别到关键词则rwnd=0.4l。
4.根据权利要求3所述的方法,其中,所述对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量,包括:对所述关键词匹配窗口内的语音信号预加重,弥补高频信号在声音传播中的损失;以固定帧长和帧移对语音信号重叠分帧,得到分帧语音信号;对所述分帧语音信号加窗,得到中央部分增强其余部分趋于零的语音信号;对加窗后的语音信号进行傅里叶变换,得到每一帧语音信号的线性频谱;将所述线性频谱输入梅尔频率滤波器组,得到梅尔频率倒谱系数嵌入特征向量。5.根据权利要求4所述的方法,所述分析特定场景下的自定义关键词列表,以及结合预先训练的音素补白模型,得到自定义关键词的中文解码网络空间和英文解码网络空间,包括:以上下文相关音素为基本建模单元训练隐马尔可夫模型声学模型,以在线式废料模型构建音素补白模型,其中,音素作为构成语音的最小基本单位,所述在线式废料模型直接在所述音素模型中计算每一个语音帧的局部废料概率评分,不需要单独训练废料模型;根据不同场景的应用需求,自定义关键词列表,以卡麦基梅隆大学字典的划分方式,生成关键词和音素对应关系的字典信息;以关键词文本作为语言模型语料库,基于统计语言模型进行语言建模,对于给定关键词序列S=(s1,s2,...,s
n
),3元语言模型概率表示如下:其中,S表示关键词序列,s1表示关键词序列中的第1个字,s2表示关键词序列中的第2个字,s
n
表示关键词序列中的第n个字,n表示关键词序列的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。