多模态图像标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40225687 阅读：5 留言：0更新日期：2024-02-02 22:29

本发明专利技术提供了一种多模态图像标注方法、装置、电子设备及存储介质，应用于图像处理及深度学习技术领域。该方法包括：对不同格式的多模态图像进行预处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频特征数据；对视频数据进行特征提取，得到对象融合特征数据；基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；根据目标对象和情绪特征数据，对多模态图像进行标注，得到标注结果；将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理及深度学习，尤其涉及一种多模态图像标注方法、装置、电子设备及存储介质。

技术介绍

1、孤独症谱系障碍（autism spectrum disorder，asd）是一种广泛性神经发育障碍，涉及语言、情感、思维、社交、感知觉、动作与行为等多方面，严重影响儿童社会功能和生活质量。因此，孤独症的早期识别工作对于儿童群体的保护和发展意义重大。

2、当前，asd患者多多发现于儿童时期，随着科技的快速发展，目前研究提出了基于儿童音视频数据的孤独症评估方法，也就是，通过捕捉孤独症儿童在情感表达过程中的声音微扰动、面部微动作以及姿态行为等特征，可以辅助识别早起孤独症患儿。

3、然而，基于音视频信号的孤独症评估方法需要大量的数据进行分析，这就需要首先完成对asd儿童原始音视频数据的标注工作，其中，包括asd儿童发音时间点、情绪动作、行为动作、社交环境、噪音干扰等多种标注。目前，对于asd儿童的音视频数据的标注工作主要通过人工反复操作，没有标注指引，由于asd儿童的音视频数据的复杂性和多样性，使得标注工作费时费力，标注效率低，成本高且误差大。

技术实现思路

1、鉴于上述问题，本专利技术提供了一种用于辅助孤独症识别的多模态图像标注方法、装置、电子设备及存储介质。

2、根据本专利技术的一方面提供了一种用于辅助孤独症识别的多模态图像标注方法，包括：对不同格式的多模态图像进行预处理，得到音频数据和视频数据；对音频数据进行特征提取，得到音频特征数据；对视频

3、根据本专利技术的实施例，其中，基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象，包括：对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点；根据音频特征数据的语音起始点和语音终止点，确定待识别音频特征数据；将待识别音频特征数据输入至第一神经网络模型，得到与音频特征数据对应的目标对象。

4、根据本专利技术的实施例，其中，音频特征数据包括短时能量特征数据和短时过零率特征数据。

5、根据本专利技术的实施例，对音频特征数据进行语音检测，确定音频特征数据的语音起始点和语音终止点，包括：根据与短时能量特征数据对应的音频特征数据的短时能量包络线，确定音频特征数据的第一语音门限和第二语音门限，其中，第一语音门限对应的门限值大于第二语音门限对应的门限值；根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点；根据与短时过零率特征数据对应的音频特征数据的短时过零率包络线，确定音频特征数据的第三语音门限；根据语音预估起始点，向第一方向搜索第三语音门限与短时过零率包络线的第一交点，得到音频特征数据的语音起始点；根据语音预估终止点，向第二方向搜索第三语音门限与短时过零率包络线的第二交点，得到音频特征数据的语音终止点。

6、根据本专利技术的实施例，其中，根据第一语音门限和第二语音门限，确定音频特征数据的语音预估起始点和语音预估终止点，包括：根据第一语音门限，确定第一语音门限与短时能量包络线的第三交点和第四交点，其中，第三交点的语音时间早于第四交点的语音时间；根据第三交点，向第一方向搜索第二语音门限与短时能量包络线的第五交点，得到音频特征数据的语音预估起始点；根据第四交点，向第二方向搜索第二语音门限与短时能量包络线的第六交点，得到音频特征数据的语音预估终止点。

7、根据本专利技术的实施例，上述方法还包括：将多模态图像对应的目标对象进行匿名处理，得到匿名后的目标对象；将包含有匿名后的目标对象对应的多模态图像、匿名后的目标对象、标注结果、音频特征数据和对象融合特征数据存储于云数据库中。

8、根据本专利技术的实施例，其中，对音频数据进行特征提取，得到音频特征数据，包括：对音频数据进行第一采样处理，得到处理后的音频数据；对处理后的音频数据进行时域特征提取，得到时域特征数据；对处理后的音频数据进行频域特征提取，得到频域特征数据；根据时域特征数据和频域特征数据，确定音频特征数据。

9、根据本专利技术的实施例，其中，对视频数据进行特征提取，得到对象融合特征数据，包括：对视频数据进行第二采样处理，得到处理后的视频数据；对处理后的视频数据进行对象面部特征提取，得到对象面部特征数据；对处理后的视频数据进行对象姿态特征提取，得到对象姿态特征数据；对对象面部特征数据和对象姿态特征数据进行特征融合，得到对象融合特征数据。

10、本专利技术的另一方面提供了一种用于辅助孤独症识别的多模态图像标注装置，包括：预处理模块，用于对不同格式的多模态图像进行预处理，得到音频数据和视频数据；第一提取模块，用于对音频数据进行特征提取，得到音频特征数据；第二提取模块，用于对视频数据进行特征提取，得到对象融合特征数据；第一处理模块，用于基于第一神经网络模型，对音频特征数据进行处理，得到与音频特征数据对应的目标对象；第二处理模块，用于基于第二神经网络模型，对对象融合特征数据进行处理，得到目标对象的情绪特征数据；标注模块，用于根据目标对象和目标对象的情绪特征数据，对多模态图像进行标注，得到标注结果；第三处理模块，用于将标注结果、音频特征数据和对象融合特征数据进行可视化处理，以便标注人员对与多模态图像对应的标注结果进行调整。

11、本专利技术的另一方面还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

12、本专利技术的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

13、本专利技术的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

14、通过对不同格式的多模态图像的音频数据和视频数据分别进行特征提取，得到音频特征数据和对象融合特征数据，基于神经网络模型对音频特征数据和对象融合特征数据进行处理，得到与音频特征数据对应的目标对象以及目标对象的情绪特征数据，并基于该目标对象以及情绪特征数据对多模态图像进行标注，得到标注结果，同时，将得到的标注结果、音频特征数据以及对象融合特征数据可视化显示。由于采用了信号处理技术对不同格式的多模态图像的音视频数据进行特征提取，并基于深度学习技术对不同格式的多模态图像进行标注，并将多模态图像的音频特征数据和对象融合特征数据可视化显示，因此，能够至少部分解决现有技术中人工标注导致标注效率低，误差大的技术问题，实现了对多模态图像的自动标注，且标注本文档来自技高网...

【技术保护点】

1.一种用于辅助孤独症识别的多模态图像标注方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第一神经网络模型，对所述音频特征数据进行处理，得到与所述音频特征数据对应的目标对象，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频特征数据包括短时能量特征数据和短时过零率特征数据；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一语音门限和第二语音门限，确定所述音频特征数据的语音预估起始点和语音预估终止点，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行特征提取，得到音频特征数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述视频数据进行特征提取，得到对象融合特征数据，包括：

8.一种用于辅助孤独症识别的多模态图像标注装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其

...

【技术特征摘要】

1.一种用于辅助孤独症识别的多模态图像标注方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述音频特征数据包括短时能量特征数据和短时过零率特征数据；

5.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：杜铭浩，刘爽，明东，张文荃，孙宁，张露丹，方鹏，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人