一种多模态识别方法、装置、设备及介质制造方法及图纸

技术编号：40464849 阅读：6 留言：0更新日期：2024-02-22 23:18

本申请实施例提供了一种多模态识别方法、装置、设备及介质，用以解决相关技术中数据并不总是成对出现，使得模型无法正确对数据进行识别的问题。由于在本申请实施例中，在输入的数据不成对时，将随机噪声输入多模态识别模型中，由多模态识别模型的Reconstructor对随机噪声进行处理，重构出与输入的数据成对的另一数据，多模态识别模型的Encoder及Transformer对输入的数据及另一数据进行处理，得到输出结果，因此可以在数据不成对时，模型仍可正确对数据进行识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种多模态识别方法、装置、设备及介质。

技术介绍

1、相较于传统任务，多模态学习将数据输入扩展至多个维度。多模态学习使用多种不同的数据模态来训练模型，例如文本、图像、音频和视频等。这些不同模态的数据有助于提高模型的准确性和泛化能力。例如，在自然语言处理中，使用文本数据训练模型可以让模型了解语法和语义等文本特征。

2、现有多模态自监督学习方案通常要求给定的数据是成对完备的数据，可现实情况下的数据并不总是成对出现，使得模型无法基于不成对的数据进行处理，也就无法获取到对应的识别结果。

技术实现思路

1、本申请实施例提供了一种多模态识别方法、装置、设备及介质，用以解决相关技术中数据并不总是成对出现，使得模型无法正确对数据进行识别的问题。

2、第一方面，本申请实施例提供了一种多模态识别方法，所述方法包括：

3、判断输入的数据是否成对；

4、若否，则获取随机噪声，将所述数据、所述随机噪声及输入的数据并非成对的信息输入到所述多模态识别模型中；

5、所述多模态识别模型的重构器(reconstructor)，对所述随机噪声进行处理，重构与所述数据成对的另一数据；所述多模态识别模型的译码器(encoder)对所述数据及所述另一数据进行编码，所述多模态识别模型的转换器(transformer)对编码后的数据及另一数据进行整合，输出识别结果。

6、在一种可能的实施方式中，所述多模态识别模型的encoder对

7、所述多模态识别模型的第一encoder对所述数据进行编码，所述多模态识别模型的第二encoder对所述另一数据进行编码。

8、在一种可能的实施方式中，所述所述多模态识别模型的reconstructor，对所述随机噪声进行处理之后，所述多模态识别模型的transformer对编码后的数据及另一数据进行整合之前，所述方法还包括：

9、所述多模态识别模型的自适应器(adapter)对所述另一数据进行正则化处理，并针对正则化处理后另一数据执行后续，所述多模态识别模型的transformer对编码后的数据及另一数据进行整合的步骤。

10、在一种可能的实施方式中，所述方法还包括：

11、若所述数据成对，则将所述数据及输入的数据成对的信息输入到所述多模态识别模型中；

12、所述多模态识别模型的encoder对成对的所述数据中的每个子数据进行编码，所述多模态识别模型的transformer对编码后的每个子数据进行整合，输出识别结果。

13、在一种可能的实施方式中，所述reconstructor通过以下方式训练：

14、在样本输入集中获取任一第一样本数据；

15、将随机噪声输入原始reconstructor中，获取所述原始reconstructor重构后的重构数据；

16、根据重构数据与所述第一样本数据的相似度，对所述原始reconstructor进行训练。

17、在一种可能的实施方式中，所述多模态识别模型通过以下方式训练：

18、获取样本集中任一第二样本数据；并获取针对所述第二样本数据对应保存的标注结果；

19、若所述第二样本数据成对，则将所述第二样本数据及数据成对的信息输入原始多模态识别模型中，获取所述多模态识别模型的输出结果，若所述第二样本数据不成对，则将所述第二样本数据、随机生成的随机噪声及数据不成对的信息输入原始多模态识别模型中，获取所述多模态识别模型的输出结果；

20、根据所述标注结果及所述输出结果对所述原始多模态识别模型的encoder及transformer进行训练。

21、第二方面，本申请实施例还提供了一种多模态识别装置，所述装置包括：

22、判断模块，用于判断输入的数据是否成对；

23、获取输入模块，用于若输入的数据不成对，则获取随机噪声，将所述数据、所述随机噪声及输入的数据并非成对的信息输入到所述多模态识别模型中；

24、处理模块，用于所述多模态识别模型的reconstructor，对所述随机噪声进行处理，重构与所述数据成对的另一数据；所述多模态识别模型的encoder对所述数据及所述另一数据进行编码，所述多模态识别模型的transformer对编码后的数据及另一数据进行整合，输出识别结果。

25、在一种可能的实施方式中，所述处理模块，具体用于所述多模态识别模型的第一encoder对所述数据进行编码，所述多模态识别模型的第二encoder对所述另一数据进行编码。

26、在一种可能的实施方式中，所述处理模块，还用于所述多模态识别模型的adapter对所述另一数据进行正则化处理，并针对正则化处理后另一数据执行后续，所述多模态识别模型的transformer对编码后的数据及另一数据进行整合的步骤。

27、在一种可能的实施方式中，所述处理模块，还用于若所述数据成对，则将所述数据及输入的数据成对的信息输入到所述多模态识别模型中；所述多模态识别模型的encoder对成对的所述数据中的每个子数据进行编码，所述多模态识别模型的transformer对编码后的每个子数据进行整合，输出识别结果。

28、在一种可能的实施方式中，所述处理模块，还用于在样本输入集中获取任一第一样本数据；将随机噪声输入原始reconstructor中，获取所述原始reconstructor重构后的重构数据；根据重构数据与所述第一样本数据的相似度，对所述原始reconstructor进行训练。

29、在一种可能的实施方式中，所述处理模块，还用于获取样本集中任一第二样本数据；并获取针对所述第二样本数据对应保存的标注结果；若所述第二样本数据成对，则将所述第二样本数据及数据成对的信息输入原始多模态识别模型中，获取所述多模态识别模型的输出结果，若所述第二样本数据不成对，则将所述第二样本数据、随机生成的随机噪声及数据不成对的信息输入原始多模态识别模型中，获取所述多模态识别模型的输出结果；根据所述标注结果及所述输出结果对所述原始多模态识别模型的encoder及transformer进行训练。

30、第三方面，本申请实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述多模态识别方法的步骤。

31、第四方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述多模态识别方法的步骤。

32、在本申请实施例中，电子设备判断输入的数据是否成对；若否，则获取随机噪声，将数据及随机噪声输入到多模态识别模型中；并将输入的数据并非成对的信息输入到多模态识别模型中；多模态识别模型的reconstructor，对随机噪声进行处本文档来自技高网...

【技术保护点】

1.一种多模态识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态识别模型的译码器Encoder对所述数据及所述另一数据进行编码包括：

3.根据权利要求1所述的方法，其特征在于，所述多模态识别模型的重构器Reconstructor，对所述随机噪声进行处理之后，所述多模态识别模型的转换器Transformer对编码后的数据及另一数据进行整合之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述Reconstructor通过以下方式训练：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述多模态识别模型通过以下方式训练：

7.一种多模态识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述处理模块，具体用于所述多模态识别模型的第一Encoder对所述数据进行编码，所述多模态识别模型的第二Encoder对所述另一数据进行编码。

9.一种电子设备

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述权利要求1-6任一项所述多模态识别方法的步骤。

...

【技术特征摘要】

1.一种多模态识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态识别模型的译码器encoder对所述数据及所述另一数据进行编码包括：

3.根据权利要求1所述的方法，其特征在于，所述多模态识别模型的重构器reconstructor，对所述随机噪声进行处理之后，所述多模态识别模型的转换器transformer对编码后的数据及另一数据进行整合之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述reconstructor通过以下方式训练：

6.根据权利要求1-5任一项所述的方法...

【专利技术属性】
技术研发人员：谢龙飞，
申请(专利权)人：新奥新智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人