一种PDF文档智能标注与抽取方法技术

技术编号：37496145 阅读：33 留言：0更新日期：2023-05-07 09:33

本发明专利技术公开了一种PDF文档智能标注与抽取方法，其步骤包括：1)利用文本抽取模块抽取PDF文档中的文字信息和文字位置坐标；2)利用智能标注模型对抽取出的所述文字信息进行标注；3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显，并根据预先定义的知识本体进行标注筛选：31)定义知识本体和关系；32)对定义的实体名和关系名进行向量化，基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系；33)根据从PDF文档抽取的文字和文字坐标信息，将筛选出的实体和关系定位到在PDF上；34)在原始PDF上建立一个智能标注层，标注出实体类别和关系类别。体类别和关系类别。体类别和关系类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种PDF文档智能标注与抽取方法

[0001]本专利技术涉及计算机领域，使用主动学习训练一个科研论文PDF文档的智能标注和抽取方法。方法使用深度学习模型从PDF文档中抽取论文中的实体和关系信息，在不同科研领域进行领域模型训练并在原始PDF格式上进行结果回显。此方法作为一项标注工具的后台为PDF文档提供智能标注，基于主动学习的思想，将标注工具的使用者的使用反馈作为模型再训练和更新的数据，实现对PDF文档的智能标注和抽取。

技术介绍

[0002]PDF是Portable Document Format的简称，意为可携带文件格式。与其他文件格式相比，PDF文件格式在跨平台的稳定性和阅读的流畅性上具有明显的优势，其安全性高、文件信息丰富，同时也不易编辑，是现今大量科学文献的统一传播格式。
[0003]在计算机应用
，使用模型对文档进行智能标注与抽取能迅速对标注工作项目的文档进行先一步标注，大幅提高标注工作的效率。对科研文献中的实体和关系进行抽取，是帮助科研人员从大量科研文献迅速获取知识，统一建立科学知识体系的基础。r/>[0004]公本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种PDF文档智能标注与抽取方法，其步骤包括：1)利用文本抽取模块抽取PDF文档中的文字信息和文字位置坐标；2)利用智能标注模型对抽取出的所述文字信息进行标注：21)首先对抽取出的文字以句子为单位进行切分，将字符数大于设定阈值的句子保存到句子列表；22)将所述句子列表中的句子输入命名实体识别模型进行预测，提取出句子中的命名实体及其类别；以字典的形式保存每个句子中各实体的名称、长度、在句子中的偏移量、实体类型和原始句子；23)对于非同一句子的两实体A、B，关系抽取模型根据两实体A、B所在句子及其前后若干句中的所有实体，预测得到两实体A、B之间的关系；3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显，并根据预先定义的知识本体进行标注筛选：31)在标注工具中定义知识本体和关系，包含标注项目中需要标注的实体类别和实体间的关系类别；32)对定义的实体名和关系名进行向量化，基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系，并将其输出保存到对应的实体字典、关系字典；33)根据从PDF文档抽取的文字和文字坐标信息，将筛选出的实体和关系定位到在PDF上；34)在原始PDF上建立一个智能标注层，根据步骤33)定位的坐标构建标注框，标注出实体类别和关系类别。2.根据权利要求1所述的方法，其特征在于，还包括一主动学习模块，用于定期对所述智能标注模型进行训练，以及根据标注人员对智能标注识别的信息进行修改所得更新数据，对所述智能标注模型进行增量训练。3.根据权利要求1或2所述的方法，其...

【专利技术属性】
技术研发人员：王露笛，黄梦依，宋东泽，崔文娟，杜一，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人