一种文献处理方法及装置制造方法及图纸

技术编号：35907366 阅读：31 留言：0更新日期：2022-12-10 10:45

本发明专利技术提供的文献处理方法及装置，将目标图像文献输入到布局文本提取模型，获得布局文本提取模型输出的目标图像文献的至少一个布局文本；将各布局文本输入至文本处理模型，获得文本处理模型分别从各布局文本中提取出的信息类别为目标信息类别的提取文本。本发明专利技术可以利用布局文本提取模型从目标图像文献中提取出其所有的布局文本，利用文本处理模型从各布局文本中提取出指定信息类别的提取文本，可以无需进行人工提取方式，避免人力和时间等资源的过多消耗，提高信息提取效率和准确度，且可以针对所有布局文本进行信息提取，提高信息提取的全面性。提取的全面性。提取的全面性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文献处理方法及装置

[0001]本专利技术涉及文献处理
，尤其涉及一种文献处理方法及装置。

技术介绍

[0002]随着科学技术的发展，电子文献的作用愈发重要。
[0003]在科学研究和企业生产等场景中，对电子文献进行指定类别信息的提取存在有广泛需求，比如循证医学研究对于医学文献中PICO信息的提取需求。
[0004]但是，现有技术无法有效实现对电子文献中指定类别信息的提取。

技术实现思路

[0005]本专利技术提供的文献处理方法及装置，用以解决现有技术中无法有效实现对电子文献中指定类别信息的提取的缺陷，有效实现对文献中指定类别信息的提取。
[0006]第一方面，本专利技术提供一种文献处理方法，包括：
[0007]将目标图像文献输入到布局文本提取模型，获得所述布局文本提取模型输出的所述目标图像文献的至少一个布局文本；
[0008]将各所述布局文本输入至文本处理模型，获得所述文本处理模型分别从各所述布局文本中提取出的信息类别为目标信息类别的提取文本。
[0...

【技术保护点】

【技术特征摘要】
1.一种文献处理方法，其特征在于，包括：将目标图像文献输入到布局文本提取模型，获得所述布局文本提取模型输出的所述目标图像文献的至少一个布局文本；将各所述布局文本输入至文本处理模型，获得所述文本处理模型分别从各所述布局文本中提取出的信息类别为目标信息类别的提取文本。2.根据权利要求1所述的文献处理方法，其特征在于，所述布局文本提取模型是由预训练语义理解模型和图像文献布局识别模型进行联合训练得到的。3.根据权利要求2所述的文献处理方法，其特征在于，所述布局文本提取模型中包括第一处理层、第二处理层和第三处理层；其中：所述第一处理层的结构与所述预训练语义理解模型相对应，所述第二处理层的结构与所述图像文献布局识别模型相对应；所述第三处理层用于基于所述第一处理层的输出数据和所述第二处理层的输出数据，输出各所述布局文本。4.根据权利要求3所述的文献处理方法，其特征在于，所述第一处理层的输入包括：图像文献文本和文本位置信息，所述图像文献文本为所述目标图像文献中的文本，所述图像文献文本和所述文本位置信息是所述布局文本提取模型利用光学字符识别OCR技术获得的；所述第一处理层的输出包括：用于体现文本语义理解的文本向量和用于表征文本段落与图像间映射关系的位置嵌入向量。5.根据权利要求3所述的文献处理方法，其特征在于，所述第二处理层的输入包括：所述目标图像文献、图像文献文本和文本位置信息；所述第二处理层的输出包括：字符级的2D位置嵌入向量和用于体现图像特征信息的图像嵌入向量。6.根据权利要求2所述的文献处理方法，其特征在于，所述布局文本提取模型的训练数据包括：图像文献、图像文献文本、文本位置信息和文本类别标签，所述文本类别标签为文本所属的文献布局部分的类别。...

【专利技术属性】
技术研发人员：王则远，刘鹏，周旻，任丽军，
申请(专利权)人：灵犀量子北京医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人