System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及目标说话人提取,具体涉及一种基于多尺度语音-脑电融合的脑控说话人提取方法及系统。
技术介绍
1、声音被认为是信息的载体。人类大脑具有出色的选择性听觉注意能力,可以让他们在类似于鸡尾酒会等的多说话人环境下只提取目标听觉信息,同时忽略干扰说话人。但对于患有听力损失的听者来说,这是一个重大挑战。
2、语音增强和说话人提取算法的快速发展推动了助听器的进步,并作为前端语音处理技术来提取清晰的目标语音,以便投入语音应用,例如语音活动检测、说话人分割和语音合成等。但这些方法仍然缺乏人类选择性注意神经机制的有效性,实际应用中会受到环境限制。
3、近年来,语音分离领域取得了显著的进展,它旨在从一个有多个说话人同时说话的场景里,把单个说话人的声音分离出来。大多数语音分离算法要求混合物中说话人的数量是已知且固定不变的,这极大地限制了这些算法的实用性。
4、并且分离出的语音源与听者的注意力选择无关,这就需要后续的说话人提取网络利用给定的目标说话人信息,包括神经信号或者视觉注意,去语音跟踪。但是在实际应用中,听者只会对一个说话人关注,而语音分离算法分离出所有的声源并无法确定分别是哪位说话人的,因此需要引入一个说话人认证系统,会进一步增加计算复杂度。
5、说话人提取采取了一个不同的策略,在给定目标说话人的参考线索下,使用一个说话人编码器模仿自上而下的自主聚焦,只提取目标说话人的语音,因此避免了上述问题。
6、常见的辅助参考线索有预注册的未见过的目标语音、可观察到的嘴唇运动、空间位置信
7、根据神经科学的最新研究,证明了听者的听觉注意可以从大脑活动的记录中解码。脑电信号提供了一种研究皮层神经活动的非侵入性和有效的方法,这使得它特别适合于听觉注意检测任务。先前的研究主要集中在提升盲源分离和听觉注意解码级联方案的性能。首先从听者的脑电信号中估计目标说话人的语音包络,然后将估计的包络与每个分离出的声源分别进行比较,选择相似度最高的声源作为目标语音。这种方法的性能很大程度上会依赖于听觉注意解码的精度,并且没有避免盲源分离中需要提前知道说话人数量的缺点。
技术实现思路
1、针对上述现有技术存在的问题,本专利技术的目的在于提供了一种基于多尺度语音-脑电融合的脑控说话人提取方法及系统,其采用时域方法进行网络设计,遵循编码器-解码器的端到端架构,保证所有模块都在单个神经架构中进行训练。
2、为此,本专利技术一方面提供了一种基于多尺度语音-脑电融合的脑控说话人提取方法,包括:s1、利用语音编码器将一段混合语音波形以多个时间分辨率分别编码成多尺度的语音特征,包括短、中、长三种尺度;s2、利用脑电编码器将多通道的脑电信号编码到低维的特征表达,并采用图卷积网络从脑电试验中有效提取脑电的非欧几里得数据,学习到脑电各个通道之间的交互关系,来得到目标说话人信息的特征表征;s3、利用说话人提取网络分别融合不同尺度的语音特征和脑电特征,并对于每一个尺度下的语音特征估计一个相对应的感受掩码,用于提取目标说话人,最终将三个感受掩码进行拼接得到一个包含多尺度信息的感受掩码;s4、利用语音解码器将掩蔽后的语音特征恢复成最终的时域波形。
3、根据本专利技术的另一方面,提供了一种基于多尺度语音-脑电融合的脑控说话人提取系统,包括:多尺度语音编码器模块,用于将原始混合语音波形转化为具有不同时间分辨率的多尺度语音特征,包括短、中、长三种尺度;脑电编码器模块,用于将多通道的脑电信号编码到低维的特征表达,采用图卷积网络从脑电试验中有效提取脑电的非欧几里得数据,学习到脑电各个通道之间的交互关系,来得到目标说话人信息的特征表征;说话人提取网络模块,用于分别融合各个尺度下的语音和脑电的双模态特征,以利用脑电信号和语音中包含的针对目标说话人的共同信息,接着采用dprnn神经网络生成相对应的掩码来进行说话人提取,使用基于掩蔽的方法过滤掉干扰说话人;语音解码器模块,用于将掩蔽后的语音特征恢复成最终的时域波形。
4、本专利技术还提供了一种基于多尺度语音-脑电融合的脑控说话人提取装置,其上存储有应用程序,该程序在运行时用于执行根据上面所述的基于多尺度语音-脑电融合的脑控说话人提取方法的各步骤。
5、本专利技术在现有脑控说话人提取方法的基础上,实现了将具有多个时间分辨率的语音特征和脑电特征分别进行融合,在有效利用脑电和语音中包含的针对目标说话人的共同信息的基础上,进一步充分覆盖语音的时频信息。其中融合方法采用三层卷积多层交叉注意力,可以实现多模态中互补信息的充分学习。并通过多层图卷积网络去学习脑电信号中各个通道之间的内在关系,使模型对脑电信号的空间结构具有一定的理解能力,用于更好地提取听者脑电中的注意力信息。在经过网络模型训练后,权重参数完成迭代更新后,此时,本专利技术方案的脑控说话人提取性能明显提升。
6、本方法利用听者所记录的脑电信号来指导提取目标语音,使说话人提取方法具有根据个人主观意识有效分离目标说话人的能力,并将多尺度的语音特征和脑电特征分别进行融合,可以更准确地捕捉语音的时域特性,提高语音的感知质量和可懂度。
7、除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。
本文档来自技高网...【技术保护点】
1.一种基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,包括:
2.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤S1包括:
3.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤S2包括:
4.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤S3包括:
5.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤S4包括:
6.一种基于多尺度语音-脑电融合的脑控说话人提取系统,其特征在于,包括:
7.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取系统,其特征在于,系统训练方法如下:
8.一种基于多尺度语音-脑电融合的脑控说话人提取装置,其上存储有应用程序,其特征在于,该程序在运行时用于执行根据权利要求1-5中任意一项所述的基于多尺度语音-脑电融合的脑控说话人提取方法的各步骤。
【技术特征摘要】
1.一种基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,包括:
2.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤s1包括:
3.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤s2包括:
4.根据权利要求1所述的基于多尺度语音-脑电融合的脑控说话人提取方法,其特征在于,步骤s3包括:
5.根据权利要求1所述的基于多尺度语音-脑电融...
【专利技术属性】
技术研发人员:范存航,张晶晶,张宏玉,吕钊,朱彤,裴胜兵,李平,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。