一种基于扩散模型的科技文献附图生成方法及系统技术方案

技术编号：40251673 阅读：5 留言：0更新日期：2024-02-02 22:45

本申请公开了一种基于扩散模型的科技文献附图生成方法及系统，方法包括通过获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；然后利用训练数据，对扩散模型进行训练；最后将训练数据当中的图片描述性文本当中的各个组件以及各组件直接的联系给提取出来，并且将提取出来的组件以及关系融合至图片生成的过程当中。本方法能够理解附图说明内容并生成匹配的附图，帮助提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多模态文本生成图像，具体涉及一种基于扩散模型的科技文献附图生成方法及系统。

技术介绍

1、近年来，随着科技的迅速发展，科学研究领域涌现出大量的科技论文和专利。然而，高效地检索、阅读分析和理解这些文献，以及准确地呈现研究成果，仍然是一个挑战。此外，在技术人员进行绘制科技附图时，也需要花费大量的时间进行图片绘制，此过程耗费了大量的时间。

2、现有的文本生成图像模型如扩散模型，可以实现从文本生成大致的图像，但是这些图像可能会丢失一些具体的部件，比如在生成机械图时，文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成，有可能就会丢失某些部件，可能螺钉就没有被生成出来，尤其是当图片描述性文本更加复杂的时候，这种情况更加明显。

技术实现思路

1、本申请提供一种基于扩散模型的科技文献附图生成方法及系统，可以极大的降低模型在扩散生成过程当中丢失组件的情况。

2、第一方面，一种基于扩散模型的科技文献附图生成方法，所述方法包括s1数据处理、s2科技领域文生图扩散模型训练以及s3组件关系提取及图片生成，其具体包括：

3、s1数据处理，获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；其中，图片文本描述用于模型训练的输入，对应图片用于模型训练的输出；

4、s2科技领域文生图扩散模型训练，构建文生图扩散模型，并通过数据处理形成的训练数据对进行训练；

5、s3组件关系提取及图片生成，将训练数据对中的

6、可选地，所述s1数据处理具体包括：

7、使用在公开的数据科技文献数据库下载的部分相关的文献；

8、使用自然语言处理技术从科技文献中提取附图的图片文本描述信息；其中，自然语言处理技术至少包括分词、词性标注、命名实体识别以及正则表达式；

9、使用图像检测技术从科技文献中提取图片文本描述信息相匹配的附图；其中，图像检测技术至少包括目标检测技术以及语义分割技术。

10、可选地，所述s2科技领域文生图扩散模型训练中，构建文生图扩散模型具体包括通过微调多模态clip模型构建基于扩散模型的文生图扩散模型，然后进行科技文献垂直领域进行微调。

11、可选地，通过微调多模态clip模型具体包括：

12、批次加载科技文献的数据集；其中，数据集包括科技文献的附图及对应附图说明；

13、将科技文献的附图输入到clip模型的图像编码器中得到图像编码特征；

14、将科技文献的附图说明输入到clip模型的文本编码器中得到文本编码特征；

15、计算图像编码特征和文本编码特征之间的余弦相似度损失；

16、以最大化正样本之间的余弦相似度，并且最小化负样本之间的余弦相似度作为目标进行调整；其中附图说明和附图匹配的样本对作为训练的正样本，反之不匹配的样本对作为负样本。

17、可选地，通过微调多模态clip模型构建基于扩散模型的文生图扩散模型，具体包括：

18、加载公开开源的图文对数据集，从其中进行随机采样数据，首先利用预训练的vae模型中的encoder模块将图像压缩到latent空间，得到图像向量表征；

19、然后利用微调后的clip模型中的text encoder模块文本进行编码，得到相对应匹配的文本向量；

20、通过设定的采样步数进行前向训练直到收敛。

21、可选地，通过设定的采样步数进行前向训练直到收敛中，优化的目标具体为：

22、

23、其中，t是设定的采样步长，αt是设定的一组超参数；t0是使用预训练clip的textembedding 得到的文本向量，ε是从标准正态分布n中采样的噪音，m0是图像向量表征；εθ用于预测每一步的噪音，使用u-net网络进行拟合。

24、可选地，所述s3组件关系提取及图片生成中，具体包括：

25、将训练数据对中的图片文本描述通过文本分析器进行句法分析，提取出名词性短语以及各个名词性短语之间的依存关系；

26、再将提取出来的名词性短语通过clip文本编码器编码成向量，同时对整段附图说明用clip文本编码器编码成向量；

27、将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐，获得新的文本向量；

28、将新的文本向量送至交叉注意力层部分进行注意力计算。

29、第二方面，一种基于扩散模型的科技文献附图生成系统，所述系统包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块，其具体包括：

30、数据处理模块，用于获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；其中，图片文本描述用于模型训练的输入，对应图片用于模型训练的输出；

31、科技领域文生图扩散模型训练模块，用于构建文生图扩散模型，并通过数据处理形成的训练数据对进行训练；

32、组件关系提取及图片生成模块，用于将训练数据对中的图片文本描述进行句法分析，提取出图片文本描述中的各个组件以及组件间关系；基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵，并将调整后的文生图扩散模型作为目标科技文献附图生成模型。

33、第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。

34、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。

35、相比现有技术，本申请至少具有以下有益效果：

36、结合了自然语言处理和图像处理技术，能够自动分析科技文献的摘要内容，并根据摘要内容生成相应的高质量附图，为科技文献提供更加丰富和多样的摘要，这不仅能够提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。此外，其还支持多种语言的文献摘要附图生成以及在不同特定垂直领域的微调，具有很好的适用性和通用性。主要应用于多模态科技文献附图生成场景。

37、在科技文献的摘要附图生成中能够利用提示文本生成内容正确、结构清楚、清晰度高的目标摘要附图。

38、此外，相比现有基于像素的扩散生成模型，大大减少了采样推理的时间和生成的质量，可以提升系统生成附图的速度。同时极大的降低组件在扩散生成过程中的丢失现象，保证了附图生成的质量与完整性。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的科技文献附图生成方法，其特征在于，所述方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成，其具体包括：

2.根据权利要求1所述的方法，其特征在于，所述S1数据处理具体包括：

3.根据权利要求1所述的方法，其特征在于，所述S2科技领域文生图扩散模型训练中，构建文生图扩散模型具体包括通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，然后进行科技文献垂直领域进行微调。

4.根据权利要求3所述的方法，其特征在于，通过微调多模态CLIP模型具体包括：

5.根据权利要求3所述的方法，其特征在于，通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，具体包括：

6.根据权利要求5所述的方法，其特征在于，通过设定的采样步数进行前向训练直到收敛中，优化的目标具体为：

7.根据权利要求1所述的方法，其特征在于，所述S3组件关系提取及图片生成中，具体包括：

8.一种基于扩散模型的科技文献附图生成系统，其特征在于，系统包括数据处理模块、科技领域文生图扩

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于扩散模型的科技文献附图生成方法，其特征在于，所述方法包括s1数据处理、s2科技领域文生图扩散模型训练以及s3组件关系提取及图片生成，其具体包括：

2.根据权利要求1所述的方法，其特征在于，所述s1数据处理具体包括：

3.根据权利要求1所述的方法，其特征在于，所述s2科技领域文生图扩散模型训练中，构建文生图扩散模型具体包括通过微调多模态clip模型构建基于扩散模型的文生图扩散模型，然后进行科技文献垂直领域进行微调。

4.根据权利要求3所述的方法，其特征在于，通过微调多模态clip模型具体包括：

5.根据权利要求3所述的方法，其特征在于，通过微调多模态clip模型构建基于扩散模型的文生图扩散模型，具体包括：

...

【专利技术属性】
技术研发人员：尤元岳，杜寅辰，仓浩，徐青伟，严长春，裴非，范娥媚，
申请(专利权)人：知呱呱天津大数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人