【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及一种文本插图生成方法、装置、设备及存储介质。
技术介绍
1、内容创新速度是流量规模的重要影响因素。在多种多媒体信息媒介中,图像信息相对于文本信息更直观且更具备视觉冲击力,也更容易带来传播效应,因此,基于文本生成图像的人工智能技术成为研究热点。
2、现在自媒体的视频创作的流程基本分为两步:第一步文本创作,第二步文本配图。当前的文本配图,基本都是人工的过程,依靠内容文案创作者对文案的理解,手动去互联网上寻找与文案相关的配图,并利用剪辑软件将配图和文案做成视频。这个过程十分耗费时间和精力,导致文本插图生成效率低。
技术实现思路
1、本专利技术的主要目的在于解决文本插图生成效率低的技术问题。
2、本专利技术第一方面提供了一种文本插图生成方法,所述文本插图生成方法包括:
3、接收文本插图生成请求,根据所述文本插图生成请求,获取输入文本;
4、获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,对所述输入文本进行语义提取,得到目标文本,所述提示词是生成所述目标文本满足的条件;
5、通过预训练神经网络模型的编码器,对所述目标文本进行编码,得到文本编码;
6、根据所述文本编码,使用训练的扩散模型,通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。
7、可选的,在本专利技术第一方面的第一种实现方式中,所述根据所述文本编码,使用训练的扩散模型,通过
8、通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间;
9、使用训练的扩散模型,将所述文本编码映射到图像编码;
10、根据所述图像编码,通过训练的文本图像生成模型,将文本编码从所述表示空间映射到图像空间,传递所述目标文本的语义信息,并通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。
11、可选的,在本专利技术第一方面的第二种实现方式中,所述通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间包括:
12、获取多个文本-图像对,通过图像编码器及文本编码器,将每个文本-图像对进行编码;
13、计算每个编码后的文本-图像对的余弦相似度;
14、训练迭代最小化不正确的文本-图像对之间的余弦相似度,并最大化正确的文本-图像对之间的余弦相似度,得到预训练神经网络模型;
15、通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间。
16、可选的,在本专利技术第一方面的第三种实现方式中,文本插图生成方法还包括:
17、获取训练文本,将所述训练文本编码为标记序列;
18、将所述标记序列输入到transformer模型中,得到最终标记嵌入;
19、将所述最终标记嵌入投影连接到所述扩散模型的扩散过程中每一层的注意力上下文,进行模型训练,得到训练的文本图像生成模型。
20、可选的,在本专利技术第一方面的第四种实现方式中,获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,对所述输入文本进行语义提取,得到目标文本包括:
21、获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,预测首个单词,并将所述首个单词添加到预设生成文本中;
22、通过自回归方式,根据所述输入文本,预测下一个单词,将所述下一个单词添加到所述预设生成文本中;
23、循环预测下一个单词,直至生成满足所述提示词中条件的目标文本。可选的,在本专利技术第一方面的第五种实现方式中,所述获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,预测首个单词,并将所述首个单词添加到预设生成文本中包括:
24、获取训练数据集,所述训练数据集由多个问答文本构成;
25、根据所述多个问答文本对初始大语言模型进行训练,得到训练的大语言模型;
26、获取输入的提示词,将所述输入文本及所述提示词输入到训练的大语言模型中,生成对应的文本响应;
27、根据所述文本响应,预测首个单词,并将所述首个单词添加到预设生成文本中。
28、可选的,在本专利技术第一方面的第六种实现方式中,所述接收文本插图生成请求,根据所述文本插图生成请求,获取输入文本之前,还包括:
29、推送文本输入菜单;
30、获取文本文档,将所述文本文档发送至所述文本输入菜单;
31、对所述文本文档进行解析,得到输入文本。
32、本专利技术第二方面提供了一种文本插图生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本插图生成设备执行上述的文本插图生成方法。
33、本专利技术的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文本插图生成方法。
34、在本专利技术实施例中,接收文本插图生成请求,根据所述文本插图生成请求,获取输入文本;获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,对所述输入文本进行语义提取,得到目标文本,所述提示词是生成所述目标文本满足的条件;通过预训练神经网络模型的编码器,对所述目标文本进行编码,得到文本编码;根据所述文本编码,使用训练的扩散模型,通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。本专利技术中,通过训练的大语言模型,对输入文本进行语义提取,得到目标文本,并通过预训练神经网络模型的编码器,对目标文本进行编码,然后使用训练的扩散模型,通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图,能简化文本配图的过程,自动生成文本插图,提高文本插图生成效率。
本文档来自技高网...【技术保护点】
1.一种文本插图生成方法,其特征在于,所述文本插图生成方法包括:
2.根据权利要求1所述的文本插图生成方法,其特征在于,所述根据所述文本编码,使用训练的扩散模型,通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图包括:
3.根据权利要求2所述的文本插图生成方法,其特征在于,所述通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间包括:
4.根据权利要求2所述的文本插图生成方法,其特征在于,还包括:
5.根据权利要求1所述的文本插图生成方法,其特征在于,所述获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,对所述输入文本进行语义提取,得到目标文本包括:
6.根据权利要求5所述的文本插图生成方法,其特征在于,所述获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,预测首个单词,并将所述首个单词添加到预设生成文本中包括:
7.根据权利要求1所述的文本插图生成方法,其特征在于,所述接收文本插图生成请求,根据所述文本插图生成请求,获取输入文本之前,还包括
8.一种文本插图生成装置,其特征在于,所述文本插图生成装置包括:
9.一种文本插图生成设备,其特征在于,所述文本插图生成设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文本插图生成方法。
...【技术特征摘要】
1.一种文本插图生成方法,其特征在于,所述文本插图生成方法包括:
2.根据权利要求1所述的文本插图生成方法,其特征在于,所述根据所述文本编码,使用训练的扩散模型,通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图包括:
3.根据权利要求2所述的文本插图生成方法,其特征在于,所述通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间包括:
4.根据权利要求2所述的文本插图生成方法,其特征在于,还包括:
5.根据权利要求1所述的文本插图生成方法,其特征在于,所述获取输入的提示词,根据所述输入文本及所述提示词,通过训练的大语言模型,对所述输入文本进行语义提取,得到目标文本包括:
6.根据权利要求5所述的文本插图生成方法,其特...
【专利技术属性】
技术研发人员:苏朋杨,
申请(专利权)人:深圳市闪剪智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。