用于多模态数据的文本提示方法及装置、家电设备、介质制造方法及图纸

技术编号：39962026 阅读：3 留言：0更新日期：2024-01-09 00:07

本申请涉及自然语言理解技术领域，公开一种用于多模态数据的文本提示方法，包括：获得多模态数据关联的文本特征向量，并，获得多模态数据关联的第一文本嵌入向量和第二文本嵌入向量；根据文本特征向量和第一文本嵌入向量，获得第一文本提示向量；根据文本特征向量和第二文本嵌入向量，获得第二文本提示向量；融合第一文本提示向量和第二文本提示向量，获得融合文本信息。该方法能够提升多模态信息中文本信息提取的准确性和可靠性。本申请还公开一种用于多模态数据的文本提示装置及家电设备、介质。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言理解，例如涉及一种用于多模态数据的文本提示方法及装置、家电设备、存储介质。

技术介绍

1、目前，随着人工智能技术的发展，家电设备诸如冰箱也更加智能化。为提升家电设备的信息交互能力，需要对家电设备接收的多模态信息进行分析处理以准确的获得与多模态信息关联的用户意图，从而更好地实现家电设备的信息交互。因此，如何更准确地从多模态信息中分析获得有效的信息，提高信息交互的效率成为当前亟需解决的技术难题。

2、为实现多模态信息的准确分析，相关技术一般对由文本和语音、图像、视频、音视频构成的多模态信息进行模型训练，根据模型训练的结果从而多模态信息中提取出文本信息。

3、在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：

4、然而，相关技术所采用的模型训练中的模型的输出的可靠性受限于模型的数据量，因此，在前述模型的数据量不足时，模型训练生成的文本信息的可靠性不高且准确性较差，不利于信息交互。

5、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于多模态数据的文本提示方法、装置、家电设备和介质，以提升多模态信息

3、在一些实施例中，所述方法包括：用于多模态数据的文本提示方法，包括：获得多模态数据关联的文本特征向量，并，获得多模态数据关联的第一文本嵌入向量和第二文本嵌入向量；根据文本特征向量和第一文本嵌入向量，获得第一文本提示向量；根据文本特征向量和第二文本嵌入向量，获得第二文本提示向量；融合第一文本提示向量和第二文本提示向量，获得融合文本信息。

4、在一些实施例中，所述装置包括：包括处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行如上述的用于多模态数据的文本提示方法。

5、在一些实施例中，所述家电设备，包括：设备本体；如上述的用于多模态数据的文本提示装置，被安装于所述设备本体。

6、在一些实施例中，所述存储介质，存储有程序指令，所述程序指令在运行时，执行如上述的用于多模态数据的文本提示方法。

7、本公开实施例提供的用于多模态数据的文本提示方法、装置、家电设备和介质，可以实现以下技术效果：

8、通过获得多模态数据关联的第一文本嵌入向量和第二文本嵌入向量，可充分提取出多模态数据中的语音文本特征和图像文本特征。再根据文本编码特征和第一文本嵌入向量获得第一文本提示向量，并根据文本特征向量和第二文本嵌入向量获得第二文本提示向量，以分别获得最优的语音提示和图像提示。最后，融合第一文本提示向量和第二文本提示向量，获得融合文本信息，从而实现高质量的文本输出。如此，本公开实施例能够充分地提取出多模态数据中的文本信息，提升多模态信息中文本信息提取的准确性和可靠性。

9、以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

本文档来自技高网...

【技术保护点】

1.一种用于多模态数据的文本提示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获得多模态数据关联的第一文本嵌入向量和第二文本嵌入向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述多模态数据包括原始文本、音视频数据和图像数据；确定多模态数据的文本特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述对音视频数据进行语音识别处理，获得语音文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述对有效语音数据进行语音特征提取，获得语音特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据文本特征向量和第一文本嵌入向量，获得第一文本提示向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述融合第一文本提示向量和第二文本提示向量，获得融合文本信息，包括：

8.根据权利要求7所述的方法，其特征在于，UNet网络模型配置有带有Mask的编码器和带有多头注意力机制的解码器，所述融合第一文本提示向量和第二文本提示向量，获得融合文本信息，包括：</p>

9.一种用于信息交互装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至8任一项所述的用于多模态数据的文本提示方法。

10.一种家电设备，其特征在于，包括：

11.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至8任一项所述的用于多模态数据的文本提示方法。

...

【技术特征摘要】

1.一种用于多模态数据的文本提示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获得多模态数据关联的第一文本嵌入向量和第二文本嵌入向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述多模态数据包括原始文本、音视频数据和图像数据；确定多模态数据的文本特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述对音视频数据进行语音识别处理，获得语音文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述对有效语音数据进行语音特征提取，获得语音特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据文本特征向量和第一文本嵌入向量，获得第一文本提示向量，包括：

7....

【专利技术属性】
技术研发人员：曾谁飞，孔令磊，张景瑞，李敏，刘卫强，谢充，
申请(专利权)人：青岛海尔电冰箱有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人