一种基于面颈部表面肌电的无声语音解码方法技术

技术编号：34807366 阅读：28 留言：0更新日期：2022-09-03 20:15

本发明专利技术公开了一种基于面颈部表面肌电的无声语音解码方法，是通过处理采集的用户默读过程中相关肌肉活动对应的表面肌电信号，解码出无需发声的语音内容，其步骤包括：1、采集用户的表面肌电信号，构成训练数据集；2、进行数据分割，得到具有音节标注的训练数据集；3、进行数据增强；4、对数据增强后的训练数据集进行特征提取；5、构建一个刻画时空信息的深度神经网络；6、构建统计语言模型，得到对用户连续默读短语的预测。本发明专利技术从构成语音序列的更细粒度结构识别语音内容，不仅能实现高性能的无声语音识别，还能有助于理解表面肌电活动对应的语音的含义，为无声语音识别方法提供了一个新思路。思路。思路。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于面颈部表面肌电的无声语音解码方法

[0001]本专利技术属于生物信号处理、机器学习与智能控制领域，具体的说是一种基于面颈部表面肌电的无声语音解码方法。

技术介绍

[0002]语音是人类日常生活中必不可少的有效便利的交流方式。在过去几十年中，以自动语音识别(automatic speech recognition,ASR)技术为代表的语音相关的人机交互技术发展迅速，一般场景下已表现出非常高的性能。然而，由于依赖发声的语音，ASR的缺点非常明显。如在高噪声背景下无法保证有效工作，无法满足私密性交互需求，并且发声障碍人群无法凭借ASR进行日常交流。
[0003]为了克服上述缺点，研究人员探索了非声学语音识别方法。在人们说话和默读的过程中，与发音相关的面部和颈部肌肉群被激活，产生生物电信号，称为表面肌电图(surface electromyogram,sEMG)。因此，基于sEMG的无声语音识别(silent speech recognition,SSR)已成为某些特殊场景下的一种ASR的重要补充方式。基于sEMG的SSR技术经过几十年的发展，取得了一些进展。早期的SSR主要使用经典的模式分类方法，如支持向量机、共轭梯度网络等；用通道数量较少的分立式电极记录受试者面部和颈部的sEMG，对词语数量有限的语料库进行识别。之后的研究倾向于使用刻画sEMG时序信息的隐马尔可夫模型(hidden Markov model，HMM)对词汇数量较多的语料库进行识别。随着数据采集技术的发展，高密度(high
‑/>density,HD)电极阵列被设计用于同时记录目标肌肉或一组肌肉在相对大的区域内的大量通道表面肌电信号。高密度表面肌电信号(HD
‑
sEMG)阵列的使用有助于捕捉珍贵的空间信息，表征肌肉活动的异质性，从而提高肌电模式识别的性能。
[0004]虽然上述研究证明了模式分类技术在实现令人满意的SSR性能方面的可用性，但仍存在一些不足。如1)依赖模式分类方法，简单地将短语或单词于sEMG模式特征之间进行映射，忽略了时序关联的语义信息。2)分类技术的性能受到语料库中词汇数量的限制。3)常用的模式分类技术主要用于孤立词的识别，无法实现自然连贯的无声语音交互。

技术实现思路

[0005]本专利技术是为了解决上述现有技术存在的不足之处，提出一种基于面颈部表面肌电的无声语音解码方法，以期能识别语音序列的更细粒度结构并理解语音内容，从而提高发音相似的短语的识别性能，最终能实现准确自然的无声语音交互。
[0006]本专利技术为达到上述专利技术目的，采用如下技术方案：
[0007]本专利技术一种基于面颈部表面肌电的无声语音解码方法的特点在于，包括如下步骤：
[0008]步骤一、构建一个包含N个中文短语的指令集P＝{p1,
…
,p
n
,
…
,p
N
}，p
n
表示指令集P中第n个中文短语，且N个中文短语共包含L类音节；
[0009]使用高密度电极阵列采集用户默读中文短语时面部和颈部肌肉所产生的表面肌
电信号，并使用基于短时能量和过零率的双阈值检测方法标注所述表面肌电信号中的静息信号段和短语对应的表面肌电信号段，从而形成带有标注的各个短语信号段并构成训练短语数据集S
p
；
[0010]步骤二、用一系列前后具有时间重叠的信号窗分割所述训练短语数据集S
p
，得到M个信号窗样本，并按照所述短语信号段包含的音节数量均分各个短语信号段，再结合各个短语信号段的音节顺序，对每个信号窗样本进行细粒度的音节的标注，从而得到具有音节标注的M个信号窗样本组成的一批训练数据集；
[0011]步骤三、改变信号窗的切分时刻，以调整每个信号窗的分窗边界后，按照步骤二的过程进行处理，从而得到K批具有音节标注的训练数据集其中，表示第k批具有音节标注的训练数据集，且表示第k批具有音节标注的训练数据集，且表示第k批数据的第m个信号窗样本，表示对应的音节标注，且采用独热编码表示，的尺寸为[1,L]；S
origin
共包含M
×
K个信号窗样本；
[0012]步骤四、提取训练数据集S
origin
的肌电特征：
[0013]步骤4.1、使用连续不重叠的帧对每个信号窗样本进行切分处理，得到d帧的信号窗数据；
[0014]步骤4.2、根据高密度电极阵列的信号通道相对的位置，将高密度电极阵列所采集的表面肌电信号转换为二维电极通道阵列的表面肌电数据矩阵，其尺寸记为[e,g]；
[0015]步骤4.3、提取每帧信号窗数据的c个肌电特征，从而得到每帧的三维肌电特征图；进而获得所有信号窗样本的三维肌电特征图集表示第k批数据的第m个信号窗样本的d帧三维肌电特征图，的尺寸记为[d,e,g,c]，表示第k批数据的第m个信号窗样本的音节标注；
[0016]步骤五、构建基于刻画时空信息的深度神经网络，包括：A个包含时间分布层的扩张卷积块、压平层、A个双向门控循环单元块和A个全连接层，并将三维肌电特征图集S
input
按K个批次输入所述深度神经网络；
[0017]步骤5.1、任意第a个扩张卷积块包括一个扩张卷积层，一个批归一化层和一个Dropout层；且第a个扩张卷积层采用H
a
个维度为h
×
h的二维卷积核，并采用Tanh激活函数；
[0018]当a＝1时，第k批的三维肌电特征图集输入所述第a个扩张卷积块中进行处理，输出第k批的第a个特征图为表示第k批三维肌电特征图集中第m个信号窗样本输出的特征图，尺寸为[d,e,g,H
a
]；
[0019]当a＝2,3,
…
,A时，将第k批的第a
‑
1个特征图输入所述第a个扩张卷积块中进行处理，输出第k批的第a个特征图从而由第A个扩张卷积块输出最终的特征图
[0020]步骤5.2、所述特征图经过所述压平层的处理后，得到第k批的压平特征集
其中，表示第k批第m个特征图经过所述压平层后输出的特征图，尺寸为[d,e
×
g
×
H
a
]；
[0021]步骤5.3、任意第a个双向门控循环单元块包括一个采用ReLU激活函数的双向门控循环单元层和一个Dropout层，所述双向门控循环单元层中的隐藏节点的维度均为b；
[0022]当a＝1时，所述第k批的压平特征集输入所述第a个双向门控循环单元块中进行处理，并输出第k批的第a个门控特征集表示特征图经过第a个双向门控循环单元块处理后输出的门控特征，尺寸为[d,2
×
b]；
[0023]当a＝2,3,
…
,A
‑
1时，将第k批的第a
‑
1个特征集输入所述第a个双向门控循环单元块中进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于面颈部表面肌电的无声语音解码方法，其特征在于，包括如下步骤：步骤一、构建一个包含N个中文短语的指令集P＝{p1,
…
,p
n
,
…
,p
N
}，p
n
表示指令集P中第n个中文短语，且N个中文短语共包含L类音节；使用高密度电极阵列采集用户默读中文短语时面部和颈部肌肉所产生的表面肌电信号，并使用基于短时能量和过零率的双阈值检测方法标注所述表面肌电信号中的静息信号段和短语对应的表面肌电信号段，从而形成带有标注的各个短语信号段并构成训练短语数据集S
p
；步骤二、用一系列前后具有时间重叠的信号窗分割所述训练短语数据集S
p
，得到M个信号窗样本，并按照所述短语信号段包含的音节数量均分各个短语信号段，再结合各个短语信号段的音节顺序，对每个信号窗样本进行细粒度的音节的标注，从而得到具有音节标注的M个信号窗样本组成的一批训练数据集；步骤三、改变信号窗的切分时刻，以调整每个信号窗的分窗边界后，按照步骤二的过程进行处理，从而得到K批具有音节标注的训练数据集其中，表示第k批具有音节标注的训练数据集，且表示第k批具有音节标注的训练数据集，且表示第k批数据的第m个信号窗样本，表示对应的音节标注，且采用独热编码表示，的尺寸为[1,L]；S
origin
共包含M
×
K个信号窗样本；步骤四、提取训练数据集S
origin
的肌电特征：步骤4.1、使用连续不重叠的帧对每个信号窗样本进行切分处理，得到d帧的信号窗数据；步骤4.2、根据高密度电极阵列的信号通道相对的位置，将高密度电极阵列所采集的表面肌电信号转换为二维电极通道阵列的表面肌电数据矩阵，其尺寸记为[e,g]；步骤4.3、提取每帧信号窗数据的c个肌电特征，从而得到每帧的三维肌电特征图；进而获得所有信号窗样本的三维肌电特征图集获得所有信号窗样本的三维肌电特征图集表示第k批数据的第m个信号窗样本的d帧三维肌电特征图，的尺寸记为[d,e,g,c]，表示第k批数据的第m个信号窗样本的音节标注；步骤五、构建基于刻画时空信息的深度神经网络，包括：A个包含时间分布层的扩张卷积块、压平层、A个双向门控循环单元块和A个全连接层，并将三维肌电特征图集S
input
按K个批次输入所述深度神经网络；步骤5.1、任意第a个扩张卷积块包括一个扩张卷积层，一个批归一化层和一个Dropout层；且第a个扩张卷积层采用H
a
个维度为h
×
h的二维卷积核，并采用Tanh激活函数；当a＝1时，第k批的三维肌电特征图集输入所述第a个扩张卷积块中进行处理，输出第k批的第a个特征图为批的第a个特征图为表示第k批三维肌电特征图集中第m个信号窗样本输出的特征图，尺寸为[d,e,g,H
a
]；当a＝2,3,
…
,A时，将第k批的第a
‑
1个特征图输入所述第a个扩张卷积块中进行处
理，输出第k批的第a个特征图从而由第A个扩张卷积块输出最终的特征图步骤5.2、所述特征图经过所述压平层的处理后，得到第k批的压平特征集经过所述压平层的处理后，得到第k批的压平特征集其中，表示第k批第m个特征图经过所述压平层后输出的特征图，尺寸为...

【专利技术属性】
技术研发人员：张旭，何运宝，陈希，陈香，陈勋，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人