一种基于音频和文本模态融合的阿尔兹海默症诊断系统技术方案

技术编号：40459991 阅读：12 留言：0更新日期：2024-02-22 23:15

本发明专利技术公开一种基于音频和文本模态融合的阿尔茨海默症诊断系统，涉及语音处理和自然语言处理的交叉技术领域。包括：多模态融合模块：基于数据预处理模块得到的向量化表示，利用transformer编码器和多层共同注意力层进行特征学习、模态交互和特征深度学习，得到多模态交互后的特征表示；多任务学习模块：基于多模态交互后的特征表示进行多任务学习；多任务包括主任务和两个辅助任务；第一个辅助任务为模态驱动的交互增强任务；第二个辅助任务为协同模态融合任务；分类模块：利用多任务学习后的分类器对待分类的阿尔兹海默症数据进行分类，得到阿尔兹海默症数据的分类结果。本发明专利技术能够增强模态之间的有效信息交流，提高系统的性能和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理和自然语言处理交叉，尤其是涉及一种基于音频和文本模态融合的阿尔兹海默症诊断系统。

技术介绍

1、阿尔茨海默病(ad)是老年人中最常见的慢性神经退行性疾病，也是全球ad的重要原因，其特点是认知障碍、认知功能不可逆性下降、心理障碍、记忆力减退，严重影响患者的社交和日常生活能力。先前的研究表明，在ad早期阶段就可以观察到言语和语言的变化，通常表现为言语和语言能力的缺陷。因此，语音分析领域的研究显得尤为重要。

2、收集录音主要用于基于语音和语言的ad检测。音频记录作为多模态源，本质上包含语言和声学信息。虽然转录本信息是通过手动转录或自动语音识别(asr)获得的，但由于手动转录耗时且昂贵，因此通常选择asr。近年来，利用转录本进行ad检测取得了各种成果。

3、在临床诊断中，录音中嵌入的声学和语言信息都用于阿尔兹海默症检测，这鼓励研究人员探索多模态特征融合方法，以提高自动阿尔兹海默症检测模型的准确性。但在使用转录本和语音进行ad检测时，它们仍然受到限制，主要体现以下三个方面：

4、(1)数据集样本数量有限：由于用户的个人健康信息和隐私问题，通常情况下，所提供的数据仅包含语音数据，并且样本数量有限，一般只包括几十到几百位患者的数据。

5、(2)模态间的信息传递存在不足之处：以往的研究主要聚焦于特征提取的阶段，然而，由于数据集的样本数量相对较少，这导致了模态之间的信息传递受到限制。因此，在综合多种感知模式时，需要更深入地考虑如何增强模态之间的有效信息交流，以提高系统的性能和准确性。

6、(3)注意力机制：考虑到ad患者的语言表达可能与平常有所不同，包括语句结构和语法信息的变化，传统的注意力机制在模态交互阶段可能无法充分发挥其作用。

技术实现思路

1、有鉴于此，本专利技术提出一种基于音频和文本模态融合的阿尔兹海默症诊断系统，目的在于从数据分析的角度为临床诊断提供辅助工具和手段。

2、本专利技术采用的技术方案如下：

3、本专利技术公开了一种基于音频和文本模态融合的阿尔兹海默症诊断系统，包括：

4、预处理模块：获取阿尔兹海默症数据集，将所述阿尔茨海默症数据集转录为文本，对音频和文本进行预处理，得到音频和文本的向量化表示；所述阿尔兹海默症数据集包括录音文件；

5、多模态融合模块：基于所述数据预处理模块得到的向量化表示，利用transformer编码器和多层共同注意力层进行特征学习、模态交互和特征深度学习，得到多模态交互后的特征表示；

6、多任务学习模块：基于所述多模态交互后的特征表示进行多任务学习；所述多任务包括主任务和两个辅助任务；所述多任务中的各个任务均由分类器执行；第一个辅助任务为模态驱动的交互增强任务；第二个辅助任务为协同模态融合任务；

7、分类模块：利用多任务学习后的分类器对待分类的阿尔兹海默症数据进行分类，得到阿尔兹海默症数据的分类结果。

8、进一步地，所述多模态融合模块，具体用于：

9、将音频和文本两个不同模态分别输入到transformer编码器中，利用transformer编码器进行特征学习；

10、将特征学习得到的两个输出分别传入多层共同注意力层，所述多层共同注意力层生成注意力矩阵，并通过阈值控制减少冗余信息，实现两个模态信息的融合；

11、再将融合后的特征重新输入到transformer编码器中，利用transformer编码器学习模态之间交互后的特征表示。

12、进一步地，所述预处理包括：

13、剔除转录文本中不必要的冗余信息；

14、对音频和文本进行进一步处理，以构建数据加载器；所述数据加载器包括一个主任务和两个辅助任务；

15、将构建的三个任务中的音频和文本分别输入到bert和wav2vec2.0预训练模型中，得到音频和文本的向量化表示。

16、进一步地，第一个辅助任务采用以下公式进行数据重构：

17、samplead＝{[t1，s1]，...，[tn，sn]}；

18、samplehc＝[t1，s1]，...，[tk，sk]；

19、

20、

21、其中samplead表示阿尔兹海默症患者样本，samplehc表示健康对照样本，q和e代表阿尔兹海默症和健康对照的随机样本下标，t，s分别代表文本和音频。

22、进一步地，第二个辅助任务与第一个辅助任务的构建相同，其标签发生变化，按照以下公式计算：labelnew＝labela×2+labelb；

23、其中，labelnew为第二个辅助任务的标签，labela为音频所属标签，labelb为文本所述标签。

24、进一步地，采用多任务损失进行整体训练，损失函数为：

25、其中，为总损失函数，为主分类任务的损失函数，为第一个辅助任务的损失函数，为第二个辅助任务的损失函数，α、β分别为辅助任务的权重。

26、与现有技术相比，本专利技术的有益效果是：

27、1)通过引入预训练模型wav2vec2.0和bert作为前置网络，通过在ad识别的下游任务上对其进行微调，成功地获得了更丰富的语义信息。这一举措不仅有效地提升了模型的性能，同时也解决了数据量不足的问题。

28、2)本专利技术设计了一个模态交互架构，其中包括一个共注意力模块。这个模态交互架构允许多轮交互，共注意力模块生成一个稀疏矩阵的注意力矩阵，通过去除一些冗余权重，改善了模态之间的信息丰富度。这个架构的设计有助于更好地促进模态之间的有效互动。

29、3)为了应对模态交互和样本量不足的问题，本专利技术引入了两个辅助任务，以确保在模态融合过程中不会忽视任何模态的独特信息。这些辅助任务不仅有助于增强模型的数据训练，还有助于解决数据稀缺的挑战。

本文档来自技高网...

【技术保护点】

1.一种基于音频和文本模态融合的阿尔兹海默症诊断系统，其特征在于，包括：

2.根据权利要求1所述的阿尔兹海默症诊断系统，其特征在于，所述多模态融合模块，具体用于：

3.根据权利要求1所述的阿尔兹海默症诊断系统，其特征在于，所述预处理包括：

4.根据权利要求3所述的阿尔兹海默症诊断系统，其特征在于，第一个辅助任务采用以下公式进行数据重构：

5.根据权利要求4所述的阿尔兹海默症诊断系统，其特征在于，第二个辅助任务与第一个辅助任务的构建相同，其标签发生变化，按照以下公式计算：labelnew＝labelA×2+labelB；

6.根据权利要求5所述的阿尔兹海默症诊断系统，其特征在于，采用多任务损失进行整体训练，损失函数为：

【技术特征摘要】

1.一种基于音频和文本模态融合的阿尔兹海默症诊断系统，其特征在于，包括：

2.根据权利要求1所述的阿尔兹海默症诊断系统，其特征在于，所述多模态融合模块，具体用于：

3.根据权利要求1所述的阿尔兹海默症诊断系统，其特征在于，所述预处理包括：

4.根据权利要求3所述的阿尔兹海默症诊断系统，其特征在于，第一个辅...

【专利技术属性】
技术研发人员：张益嘉，邵行收，潘怡霖，鲁明羽，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人