视觉可控的自然语言生成方法、装置、电子设备及介质制造方法及图纸

技术编号：40934624 阅读：4 留言：0更新日期：2024-04-18 14:54

本发明专利技术提供一种视觉可控的自然语言生成方法、装置、电子设备及介质，其中方法包括：获取上下文文本数据和视觉控制数据；将上下文文本数据和视觉控制数据输入至多模态上下文云知识检索模型中进行知识检索，得到多模态上下文云知识检索模型输出的文本知识；对上下文文本数据、视觉控制数据和文本知识分别进行特征提取，得到多模态依赖特征；将多模态依赖特征输入至生成式语言模型中，得到生成式语言模型输出的生成文本。多模态依赖特征涵盖上下文文本数据、视觉控制数据和文本知识中的特征信息，将多模态依赖特征输入至生成式语言模型，得到生成文本，生成文本与视觉概念之间存在明确约束，不会出现幻觉问题，从而提高生成文本的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种视觉可控的自然语言生成方法、装置、电子设备及介质。

技术介绍

1、大型语言模型(large language model，llm)在各种自然语言处理任务中显示出无与伦比的自然语言生成能力，但在适用性、响应速度、节能减排等方面存在诸多限制。因此，对使用小型语言模型的视觉控制自然语言生成的研究具有重要意义。

2、现有的视觉控制的自然语言生成方案中，受限于小型语言模型的参数中可能只包含少量知识，不足以解决实际问题，而且忽略了生成文本与视觉概念之间的明确约束，可能会出现幻觉问题。因此如何为视觉控制的自然语言生成有效检索外部知识并适当融合知识表征与多模态输入表征，成为一个巨大挑战。

技术实现思路

1、本专利技术提供一种视觉可控的自然语言生成方法、装置、电子设备及介质，用以解决现有技术中现有的视觉控制的自然语言生成方案中，受限于小型语言模型的参数中可能只包含少量知识，不足以解决实际问题，而且忽略了生成文本与视觉概念之间的明确约束，可能会出现幻觉问题的缺陷。

2、本专利技术提供一种视觉可控的自然语言生成方法，包括：

3、获取上下文文本数据和视觉控制数据；

4、将所述上下文文本数据和所述视觉控制数据输入至多模态上下文云知识检索模型中进行知识检索，得到所述多模态上下文云知识检索模型输出的文本知识；

5、对所述上下文文本数据、所述视觉控制数据和所述文本知识分别进行特征提取，得到多模态依赖特征；

7、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述对所述上下文文本数据、所述视觉控制数据和所述文本知识分别进行特征提取，得到多模态依赖特征，包括：

8、基于预训练的bert模型，对所述上下文文本数据和所述文本知识分别进行特征提取，得到所述上下文文本数据对应的第一词级文本特征和所述文本知识对应的第二词级文本特征；

9、基于预训练的vit模型，对所述视觉控制数据进行特征提取，得到所述视觉控制数据对应的网格图像特征。

10、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述将所述多模态依赖特征输入至生成式语言模型中，得到所述生成式语言模型输出的生成文本，包括：

11、基于多头注意力层，蒸馏提取所述多模态依赖特征的关键多模态特征；

12、将所述关键多模态特征输入至生成式语言模型中，得到所述生成式语言模型输出的生成文本。

13、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述生成式语言模型包括嵌入层、跨模态干预层、小型语言模型层和多层感知机。

14、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述生成式语言模型的训练步骤包括：

15、获取样本上下文文本数据、样本视觉控制数据和标签生成文本，并确定初始生成式语言模型；

16、将所述样本上下文文本数据和所述样本视觉控制数据输入至多模态上下文云知识检索模型中进行知识检索，得到所述多模态上下文云知识检索模型输出的预测文本知识；

17、对所述上下文文本数据、所述视觉控制数据和所述预测文本知识分别进行特征提取，得到预测多模态依赖特征；

18、将所述预测多模态依赖特征输入至所述初始生成式语言模型中，得到所述初始生成式语言模型输出的预测生成文本；

19、基于所述预测生成文本和所述标签生成文本之间的差异，确定监督生成损失，并基于所述监督生成损失对所述初始生成式语言模型进行参数迭代，得到所述生成式语言模型。

20、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述基于所述预测生成文本和所述标签生成文本之间的差异，确定监督生成损失，并基于所述监督生成损失对所述初始生成式语言模型进行参数迭代，得到所述生成式语言模型，包括：

21、确定所述预测生成文本和所述样本视觉控制数据之间的一致性分数；

22、基于所述一致性分数，确定视觉控制强化损失；

23、基于所述视觉控制强化损失和所述监督生成损失，对所述初始生成式语言模型进行参数迭代，得到所述生成式语言模型。

24、根据本专利技术提供的一种视觉可控的自然语言生成方法，所述多模态上下文云知识检索模型为mplug-owl大型多模态模型。

25、本专利技术还提供一种视觉可控的自然语言生成装置，包括：

26、获取单元，用于获取上下文文本数据和视觉控制数据；

27、知识检索单元，用于将所述上下文文本数据和所述视觉控制数据输入至多模态上下文云知识检索模型中进行知识检索，得到所述多模态上下文云知识检索模型输出的文本知识；

28、特征提取单元，用于对所述上下文文本数据、所述视觉控制数据和所述文本知识分别进行特征提取，得到多模态依赖特征；

29、生成单元，用于将所述多模态依赖特征输入至生成式语言模型中，得到所述生成式语言模型输出的生成文本。

30、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视觉可控的自然语言生成方法。

31、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视觉可控的自然语言生成方法。

32、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视觉可控的自然语言生成方法。

33、本专利技术提供的视觉可控的自然语言生成方法、装置、电子设备及介质，获取上下文文本数据和视觉控制数据，将上下文文本数据和视觉控制数据输入至多模态上下文云知识检索模型中进行知识检索，得到多模态上下文云知识检索模型输出的文本知识，再对上下文文本数据、视觉控制数据和文本知识分别进行特征提取，得到多模态依赖特征，最后，将多模态依赖特征输入至生成式语言模型中，得到生成式语言模型输出的生成文本。多模态依赖特征涵盖了上下文文本数据、视觉控制数据和文本知识中的特征信息，将多模态依赖特征输入至生成式语言模型中，得到生成式语言模型输出的生成文本，生成文本与视觉概念之间存在明确约束，不会出现幻觉问题，从而提高了得到的生成文本的准确性和可靠性。

本文档来自技高网...

【技术保护点】

1.一种视觉可控的自然语言生成方法，其特征在于，包括：

2.根据权利要求1所述的视觉可控的自然语言生成方法，其特征在于，所述对所述上下文文本数据、所述视觉控制数据和所述文本知识分别进行特征提取，得到多模态依赖特征，包括：

3.根据权利要求1所述的视觉可控的自然语言生成方法，其特征在于，所述将所述多模态依赖特征输入至生成式语言模型中，得到所述生成式语言模型输出的生成文本，包括：

4.根据权利要求3所述的视觉可控的自然语言生成方法，其特征在于，所述生成式语言模型包括嵌入层、跨模态干预层、小型语言模型层和多层感知机。

5.根据权利要求1至4中任一项所述的视觉可控的自然语言生成方法，其特征在于，所述生成式语言模型的训练步骤包括：

6.根据权利要求5所述的视觉可控的自然语言生成方法，其特征在于，所述基于所述预测生成文本和所述标签生成文本之间的差异，确定监督生成损失，并基于所述监督生成损失对所述初始生成式语言模型进行参数迭代，得到所述生成式语言模型，包括：

7.根据权利要求1至4中任一项所述的视觉可控的自然语言生成方法，

8.一种视觉可控的自然语言生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视觉可控的自然语言生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视觉可控的自然语言生成方法。

...

【技术特征摘要】

1.一种视觉可控的自然语言生成方法，其特征在于，包括：

4.根据权利要求3所述的视觉可控的自然语言生成方法，其特征在于，所述生成式语言模型包括嵌入层、跨模态干预层、小型语言模型层和多层感知机。

5.根据权利要求1至4中任一项所述的视觉可控的自然语言生成方法，其特征在于，所述生成式语言模型的训练步骤包括：

6.根据权利要求5所述的视觉可控的自然语言生成方法，其特征在于，所...

【专利技术属性】
技术研发人员：徐常胜，薛迪展，钱胜胜，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人