一种多模态信息处理方法及装置制造方法及图纸

技术编号：41208701 阅读：6 留言：0更新日期：2024-05-09 23:30

本申请提供了一种多模态信息处理方法及装置，所述方法针对输入的多模态信息，获取至少一种模态的当前输入信息和上下文信息；根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息，将不同模态的信息整合为文本信息；根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，能够结合不同维度的用户意图特征，做出更加全面和精准的决策。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言理解，具体而言，涉及一种多模态信息处理方法及装置。

技术介绍

1、现有的nlu技术主要集中在处理文本数据，利用各种自然语言处理（nlp）技术，如分词、语义分析、意图识别等，来理解和回应用户输入。这些技术通常依赖于大规模的语言数据集和复杂的算法，如深度学习和神经网络模型；多模态输入处理技术涉及对多种类型的输入（如文本、语音、图像）进行处理和分析。跨模态数据整合旨在结合来自不同来源的数据（如文本、语音和图像）以提供更全面的理解和分析。然而，现有技术在处理复杂的跨模态场景时，如将语音和图像数据转换为可被nlu系统理解的格式，面临诸多挑战。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种多模态信息处理方法及装置，实现了对用户意图的高度准确识别和响应。

2、本申请实施例提供的一种多模态信息处理方法，所述方法包括：

3、获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

4、根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

5、根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

6、通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

7、在一些实施例中，所述的多模态信息处理

8、将当前输入信息中的文本分解为词和短语，得到第一目标文本信息；

9、基于语音识别将当前输入信息中的语音转换为标准表达的第二目标文本信息；

10、基于图像识别从当前输入信息中的图像中提取第一图像特征，并将所述第一图像特征转换为描述图像内容的第三目标文本信息。

11、在一些实施例中，所述的多模态信息处理方法中，根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；包括：

12、基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征；所述用户语义特征包括语义内容特征和上下文关系特征，和/或文本中的实体属性、和/或图像中的标签；

13、基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；

14、基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征。

15、在一些实施例中，所述的多模态信息处理方法中，基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征，包括：

16、对所述目标文本信息和上下文信息进行语义分析，确定语义内容特征和上下文关系特征；

17、当所述当前输入信息中包括图像时，基于图像识别获取提取所述图像的标签；

18、当所述当前输入信息中包括文本时，处理文本对应的第一目标文本信息，确定第一目标文本信息中词和短语的实体属性；

19、基于所述语义内容特征和上下文关系特征、和/或文本属性、和/或图像标签，确定用户语义特征。

20、在一些实施例中，所述的多模态信息处理方法中，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；包括：

21、通过情感状态识别模型中的语音情感识别模块提取当前输入信息中语音的语音特征，并分析所述语音特征，确定语音情感状态；

22、通过情感状态识别模型中的图像情感识别模块提取当前输入信息中图像的第二图像特征，并分析所述图像特征，确定图像情感状态；

23、融合所述语音情感状态和图像情感状态，结合所述上下文信息，确定用户意图特征中的情感状态特征。

24、在一些实施例中，所述的多模态信息处理方法中，基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征，包括：

25、通过用户意图识别模型中的多种数据库匹配通道将所述目标文本信息和预设的数据库中的数据进行匹配，确定多个匹配结果；

26、从所述多个匹配结果中筛选出符合预设准确度要求的目标匹配结果；

27、基于所述目标匹配结果确定第一参考意图特征。

28、在一些实施例中，所述的多模态信息处理方法中，当所述多个匹配结果均不符合预设准确度要求时，基于预先训练好的意图扩展模型处理所述目标文本信息，确定第二参考意图特征；所述意图扩展模型用于独立扩展所述数据库中的数据，以及基于意图扩展模型的扩展结果更新数据库。

29、在一些实施例中，所述的多模态信息处理方法中，通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图，包括：

30、基于所述意图决策模型中配置的不同维度的用户意图特征对应的决策权重，处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图；

31、其中，不同维度的用户意图特征对应的决策权重不同。

32、在一些实施例中，所述的多模态信息处理方法中还包括：

33、获取用户针对所述目标用户意图的多模态的反馈参考信息；

34、分析所述多模态的反馈参考信息，确定反馈结果；

35、基于所述反馈结果更新所述意图决策模型。

36、在一些实施例中，还提供一种多模态信息处理装置，所述装置包括：

37、获取模块，用于获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

38、第一处理模块，用于根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

39、第二处理模块，用于根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

40、第三处理模块，用于通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

41、本申请实施例中，提供了一种多模态信息处理方法及装置，所述方法针对输入的多模态信息，获取至少一种模态的当前输入信息和上下文信息；根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息，将不同模态的信息整合为文本信息；根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；通本文档来自技高网...

【技术保护点】

1.一种多模态信息处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多模态信息处理方法，其特征在于，根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；包括：

3.根据权利要求1或2所述的多模态信息处理方法，其特征在于，根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；包括：

4.根据权利要求3所述的多模态信息处理方法，其特征在于，基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征，包括：

5.根据权利要求3所述的多模态信息处理方法，其特征在于，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；包括：

6.根据权利要求3所述的多模态信息处理方法，其特征在于，基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征，包括：

7.根据权利要求6所

8.根据权利要求1所述的多模态信息处理方法，其特征在于，通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图，包括：

9.根据权利要求1所述的多模态信息处理方法，其特征在于，所述方法还包括：

10.一种多模态信息处理装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种多模态信息处理方法，其特征在于，所述方法包括：

5.根据权利要求3所述的多模态信息处理方法，其特征在于，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状...

【专利技术属性】
技术研发人员：陈洧，苏江，
申请(专利权)人：暗物智能科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人