当前位置: 首页 > 专利查询>浙江大学专利>正文

一种侵入式脑机接口汉语发音解码方法技术

技术编号:36229592 阅读:10 留言:0更新日期:2023-01-04 12:29
本发明专利技术公开了一种侵入式脑机接口汉语发音解码方法,包括:从脑电数据中筛选有效的神经元并去除高度相似的神经元,标准化后利用同步音频数据对脑电数据进行标注;根据汉语发音脑电数据的特点,将脑电数据投影到双曲空间中;构建有效的双曲神经网络和双曲多元逻辑回归分类器对脑电数据进行汉语音素分类;训练过程中,从训练数据中抽取一定数量的三元组,并基于网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;利用训练好的双曲神经网络和双曲多元逻辑回归分类器进行解码。本方法通过引入双曲空间和双曲解码方法,更好地利用了汉语发音脑电数据的结构特点,有效提高了汉语发音脑电数据的分类解码性能。数据的分类解码性能。数据的分类解码性能。

【技术实现步骤摘要】
一种侵入式脑机接口汉语发音解码方法


[0001]本专利技术涉及脑电数据解码领域,尤其是涉及一种侵入式脑机接口汉语发音解码方法。

技术介绍

[0002]侵入式脑机接口利用侵入式电极记录的高分辨率皮质内脑电信号,来识别大脑的状态和意图,进而帮助临床患者执行各种不同的任务。近年来,侵入式脑机接口在语音上的应用和研究飞速发展。先进的语音脑机接口已经实现了直接语音合成,或从脑电信号中解码语音音素、单词和句子,这意味着侵入式语音脑机接口对于恢复失语症患者的沟通能力具有巨大潜力。
[0003]通常情况下,语音脑机接口将发音视为一个运动过程,通过解码作为中间环节的口腔发音运动学,将神经信号解码成语音。一种方式是将从运动皮层记录下来的脑电信号转化为说话过程中的口腔发音动作,然后将相应的口腔发音动作转化为语音。在深度网络等机器学习方法的帮助下,一些语音脑机接口倾向于以端到端方式学习解码器,从脑电信号直接生成语音波形。
[0004]如公开号为CN111681636A的中国专利文献公开了基于脑机接口技术语音生成方法,包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号,经过特征提取后,通过多个神经网络的非线性计算和学习,加上外界的上下文语境信息和反馈输入,从大脑信号中直接解码出大脑所表达的意图和语言内容,最后通过对抗神经网络完成语音生成,实现脑机接口技术的语音生成。
[0005]然而,直接从神经信号解码语音面临词表有限的问题。因为在构建语音脑机接口之前,被试需要重复说出词汇表中的单词进行解码器训练,这是非常耗时的。另一方面,音素是发音中的基本声音单位。通常情况下,音素的数量远远少于单词的数量。通过对音素的准确识别,再进行组合之后有望实现对单词的自由解码。但是从神经信号中准确解码语音音素是很难实现的。从运动过程的角度来看,与说话相关的运动学是口面运动的组合,包括嘴唇、舌头、下巴和其他关节。因此,运动学相似的音素往往混淆,难以区分,降低了音素的整体分类性能。如何从神经信号中精确解码语音音素仍然是一个具有挑战性的问题。
[0006]更重要的是,此前还没有针对汉语发音的脑机接口应用和研究,如何针对汉语的发声特点设计算法,实现良好的分类解码性能,进而构建高效的语音脑机接口,在当下还处于空白状态。

技术实现思路

[0007]本专利技术提供了一种侵入式脑机接口汉语发音解码方法,可以有效提高汉语发音脑电数据的分类解码性能。
[0008]一种侵入式脑机接口汉语发音解码方法,包括:(1)采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经
元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;(2)将步骤(1)处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;(3)构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;(4)对双曲神经网络和双曲多元逻辑回归分类器进行训练;训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;(5)将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。
[0009]本专利技术针对汉语发音中音素本身的层次分类结构,以及汉语发音脑电信号中关于发声位置和发声方式的层次性,构建双曲神经网络来更好的学习汉语发音脑电信号的特征,通过双曲多元逻辑回归分类器得到logit向量。同时对logit向量执行层次聚类约束,鼓励模型能更好的挖掘数据本身的层次结构,从而学习到更好的表征,有效提高了汉语发音脑电数据的分类解码性能。
[0010]作为优选,步骤(1)中,使用离线筛选的方式筛选神经元。从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。
[0011]对数据进行标准化时,将原值减去均值后除以标准差,使得得到的数据满足均值为 0,标准差为1的正态分布。
[0012]作为优选,利用同步的音频数据标注发声的时间节点,以发声的时间节点为中心,截取以 [

500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。
[0013]步骤(2)中,采用庞加莱圆盘模型 来投影脑电数据到双曲空间中:来投影脑电数据到双曲空间中:来投影脑电数据到双曲空间中:其中,表示曲率为c,维度为d的双曲空间; 表示数据点,表示维度为d的欧式实数空间,表示的绝对值, 和 分别表示欧式度量和双曲度量,表示这两种度量的共形因子。
[0014]步骤(3)中,双曲神经网络表示为:
其中, 和
ꢀꢀ
分别表示双曲神经网络函数和欧式神经网络函数,
ꢀꢀ

ꢀꢀ
分别表示在原点的指数变换和对数变换,c表示双曲空间的曲率,表示数据点,表示的绝对值。
[0015]步骤(3)中,双曲多元逻辑回归分类器进行汉语音素分类时,给定z个类别,不同类别的概率计算公式为:其中,和为双曲多元逻辑回归的参数, 表示类别 z 的分类边界的共形因子,
ꢀꢀ
表示反双曲正弦函数, 表示以自然常数e为底的指数函数, 表示的绝对值;表示莫比乌斯加法运算;c代表的是双曲空间的曲率; 表示内积运算。
[0016]步骤(4)中,所述总体损失函数的公式为:其中,代表分类损失,代表层次聚类损失; 和 是平衡损失函数两部分的系数。
[0017]所述分类损失的计算方式如下:其中,是的类别标签, 是经过softmax之后的对数概率,表示mini

batch的数据量。
[0018]所述层次聚类损失的计算方式如下:所述层次聚类损失的计算方式如下:其中,表示归一化softmax函数;表示从训练数据中抽取的三元组; 表示三元组中 的最小公共祖先节点,表示三元组中 的最小公共祖先节点, 表示三元组中 的最小公共祖先节点;表示到双曲空间中心的双曲距离;表示三元组中之间的双曲相似度,表示三元组中之间的双曲相似度, 表示三元组中之间的双曲相似度;表示矩阵转置。
[0019]进行双曲相似度计算时,使用随机采样方法采样一定数量的三元组,计算彼
此之间的双曲距离,分别除以三者之和进行归一化后得到 ,其相似度表示为 。
[0020]进行层次聚类损失计算时,选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。
[0021]与现有技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种侵入式脑机接口汉语发音解码方法,其特征在于,包括:步骤1,采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;步骤2,将步骤1处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;步骤3,构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;步骤4,对双曲神经网络和双曲多元逻辑回归分类器进行训练;训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;步骤5,将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。2.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤1中,从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。3.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤2中,采用庞加莱圆盘模型 来投影脑电数据到双曲空间中:来投影脑电数据到双曲空间中:来投影脑电数据到双曲空间中:其中,表示曲率为c,维度为d的双曲空间;表示数据点,表示维度为d的欧式实数空间,表示x的绝对值,和分别表示欧式度量和双曲度量,表示这两种度量的共形因子。4.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤3中,双曲神经网络表示为:曲神经网络表示为:
其中, 和

【专利技术属性】
技术研发人员:祁玉谭显瀚王跃明张建民朱君明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1