一种文本生成方法、装置、设备和存储介质制造方法及图纸

技术编号：40238388 阅读：5 留言：0更新日期：2024-02-02 22:37

本申请提供了一种文本生成方法、装置、设备和存储介质，涉及人工智能技术领域。主要技术方案包括：利用大语言模型(LLM)的嵌入层获取文本模态的输入数据对应的特征表示；利用非文本模态对应的编码器对非文本模态的输入数据进行编码，得到非文本模态的输入数据对应的第一特征表示，利用非文本模态对应的转化器将第一特征表示转换至LLM的嵌入层采用的特征空间，得到非文本模态的输入数据的第二特征表示；对文本模态的输入数据对应的特征表示和非文本模态的输入数据对应的第二特征表示进行融合，将融合得到的特征表示提供给LLM，由LLM利用融合得到的特征表示生成输出文本。本申请能够提高LLM在多模态输入数据上的文本生成效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种文本生成方法、装置、设备和存储介质。

技术介绍

1、llm(large language model，大语言模型)是指使用巨大规模的文本数据训练并基于深度学习得到的大型自然语言处理模型，可以理解语言文本的含义或生成自然语言文本。llm可以处理多种自然语言任务，如文本分类、问答、翻译等。llm在规模和能力上大大高于传统语言模型，llm包含数十亿级别、数百亿级别、甚至更多的参数。

2、近年来，虽然llm模型在文本生成上表现出色，具有极高的信息提取和泛化能力，但随着多模态技术逐渐成为研究的热点，如何提高llm在多模态输入数据上的文本生成效果成为亟待解决的问题。

技术实现思路

1、有鉴于此，本申请提供了一种文本生成方法、装置、设备和存储介质，以提高llm在多模态输入数据上的文本生成效果。

2、根据本申请的第一方面，提供了一种文本生成方法，所述方法包括：

3、获取多种模态的输入数据，所述多种模态包括文本模态和非文本模态；

4、利用llm的嵌入层获取文本模态的输入数据对应的特征表示；

5、利用非文本模态对应的编码器对非文本模态的输入数据进行编码，得到非文本模态的输入数据对应的第一特征表示，利用非文本模态对应的转化器将所述第一特征表示转换至所述llm的嵌入层采用的特征空间，得到所述非文本模态的输入数据的第二特征表示；

6、对文本模态的输入数据对应的特征表示和非文本模态的输入数据对应的第二特征表

7、根据本申请实施例中一可实现的方式，若所述非文本模态为图像，则所述非文本模态对应的编码器基于深度卷积神经网络实现；

8、若所述非文本模态为音频，则所述非文本模态对应的编码器基于深度循环网络或转换网络transformer结构实现；

9、若所述非文本模态为视频，则所述非文本模态对应的编码器基于视觉转换网络vit或三维卷积神经网络实现。

10、根据本申请实施例中一可实现的方式，所述非文本模态对应的转化器采用线性投影层实现。

11、根据本申请实施例中一可实现的方式，所述方法应用于医疗领域，所述非文本模态的输入数据包括医学影像和/或医疗音频，所述文本模态的输入数据包括指令文本和/或医疗文档。

12、根据本申请的第二方面，提供了一种模型训练方法，所述方法包括：

13、获取包含多个训练样本的第一训练数据，所述训练样本包括非文本模态的输入样本、文本模态的输入样本以及所述非文本模态的输入样本对应的文本描述；

14、利用所述第一训练数据对非文本模态的转化器进行训练；其中，所述训练包括：利用llm的嵌入层获取训练样本中文本模态的输入样本对应的特征表示；利用非文本模态对应的编码器对训练样本中非文本模态的输入样本进行编码，得到非文本模态的输入样本对应的第一特征表示，利用非文本模态对应的转化器将所述第一特征表示转换至所述llm的嵌入层采用的特征空间，得到所述非文本模态的输入样本的第二特征表示；对文本模态的输入样本对应的特征表示和非文本模态的输入样本对应的第二特征表示进行融合处理，将融合得到的特征表示提供给llm生成输出文本；利用所述输出文本与对应训练样本中的文本描述得到损失函数，利用所述损失函数更新所述转化器的参数。

15、根据本申请实施例中一可实现的方式，所述方法还包括：对所述第一训练数据中的第一训练样本进行扩展，将扩展得到的新的第一训练样本添加至所述第一训练数据；其中所述扩展包括以下至少一种：

16、对所述第一训练数据中非文本模态的输入样本进行编辑处理；

17、对所述第一训练数据中文本模态的输入样本进行改写处理；

18、对所述第一训练数据中的描述文本进行改写处理。

19、根据本申请实施例中一可实现的方式，在所述训练的过程中，固定所述非文本模态对应的编码器和llm的参数，对所述非文本模态的转化器的参数进行迭代更新。

20、根据本申请实施例中一可实现的方式，所述第一训练数据中的文本描述针对第一粒度的对象；所述方法还包括：

21、获取包含多个训练样本的第二训练数据，所述第二训练数据中的训练样本包括非文本模态的输入样本、文本模态的输入样本以及所述非文本模态的输入样本对应的文本描述，所述第二训练数据中的文本描述针对第二粒度的对象，所述第二粒度小于所述第一粒度；

22、在利用第一训练数据训练得到的非文本模态的转化器基础上，利用所述第二训练数据对非文本模态的转化器进行进一步训练。

23、根据本申请的第三方面，提供了一种模型训练方法，所述方法包括：

24、获取包含多个训练样本的第三训练数据，所述训练样本包括多种模态的输入样本及其对应的输出文本样本，所述多种模态包括文本模态和非文本模态；

25、利用所述第三训练数据对llm进行训练；其中，所述训练包括：利用llm的嵌入层获取训练样本中文本模态的输入样本对应的特征表示；利用非文本模态对应的编码器对训练样本中非文本模态的输入样本进行编码，得到非文本模态的输入样本对应的第一特征表示，利用非文本模态对应的转化器将所述第一特征表示转换至所述llm的嵌入层采用的特征空间，得到所述非文本模态的输入样本的第二特征表示；对文本模态的输入样本对应的特征表示和非文本模态的输入样本对应的第二特征表示进行融合处理，将融合得到的特征表示提供给所述llm生成输出文本；利用所述输出文本和对应训练样本中的输出文本样本得到损失函数，利用所述损失函数更新所述llm的参数。

26、根据本申请实施例中一可实现的方式，在所述训练的过程中，固定所述非文本模态对应的编码器和转化器的参数，对所述llm的参数进行迭代更新。

27、根据本申请实施例中一可实现的方式，所述方法还包括：

28、在所述训练的过程中，按照预设的概率，将训练llm使用的训练样本中的至少一个非文本模态的输入样本替换为该非文本模态的输入样本对应的文本描述，将替换后的文本描述按照文本模态的输入样本进行处理。

29、根据本申请的第四方面，提供了一种文本生成装置，所述装置包括：

30、数据获取单元，被配置为获取多种模态的输入数据，所述多种模态包括文本模态和非文本模态；

31、llm，被配置为利用嵌入层获取所述文本模态的输入数据对应的特征表示；

32、非文本模态对应的编码器，被配置为对非文本模态的输入数据进行编码，得到非文本模态的输入数据对应的第一特征表示；

33、非文本模态对应的转化器，被配置为利用非文本模态对应的转化器将所述第一特征表示转换至所述llm的嵌入层采用的特征空间，得到所述非文本模态的输入数据的第二特征表示；

34、特征融合单元，被配置为对文本模态的输入数据对应的特征本文档来自技高网...

【技术保护点】

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述非文本模态为图像，则所述非文本模态对应的编码器基于深度卷积神经网络实现；

3.根据权利要求1所述的方法，其特征在于，所述非文本模态对应的转化器采用线性投影层实现。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法应用于医疗领域，所述非文本模态的输入数据包括医学影像和/或医疗音频，所述文本模态的输入数据包括指令文本和/或医疗文档。

5.一种模型训练方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：对所述第一训练数据中的第一训练样本进行扩展，将扩展得到的新的第一训练样本添加至所述第一训练数据；其中所述扩展包括以下至少一种：

7.根据权利要求5所述的方法，其特征在于，在所述训练的过程中，固定所述非文本模态对应的编码器和大语言模型的参数，对所述非文本模态的转化器的参数进行迭代更新。

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述第一训练数据中

9.一种模型训练方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，在所述训练的过程中，固定所述非文本模态对应的编码器和转化器的参数，对所述大语言模型的参数进行迭代更新。

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

12.一种文本生成装置，其特征在于，所述装置包括：

13.一种模型训练装置，其特征在于，所述装置包括：

14.一种模型训练装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括：

16.一种存储有程序的计算机可读存储介质，所述程序包括指令，所述指令在由计算装置的一个或者多个处理器执行时，致使所述计算装置执行根据权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述非文本模态为图像，则所述非文本模态对应的编码器基于深度卷积神经网络实现；

3.根据权利要求1所述的方法，其特征在于，所述非文本模态对应的转化器采用线性投影层实现。

5.一种模型训练方法，其特征在于，所述方法包括：

7.根据权利要求5所述的方法，其特征在于，在所述训练的过程中，固定所述非文本模态对应的编码器和大语言模型的参数，对所述非文本模态的转化器的...

【专利技术属性】
技术研发人员：胡加学，王翔，班启明，赵景鹤，贺志阳，鹿晓亮，王士进，魏思，刘聪，胡国平，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人