一种基于NLP的科研档案管理方法及系统技术方案

技术编号：39154407 阅读：10 留言：0更新日期：2023-10-23 15:00

本发明专利技术公开了一种基于NLP的科研档案管理方法及系统，涉及文档管理技术领域。该基于NLP的科研档案管理方法，基于Transformer模型，对科研文档进行分类并自动归类到设定的文件夹中；依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索，提供相关联文档；通过对科研文档进行实体关系抽取，获取科研文档之间的关联性，构建科研知识图谱，以展示不同科研文档之间的关联度以及领域知识之间的关系，通过智能分类，预训练语言模型和主题建模的文档索引搜索，以及实体关系抽取构建知识图谱，为科研人员提供了智能化的文档管理和搜索能力，使得科研人员能够更快速地定位相关文档，提升了文档管理和检索的效率。提升了文档管理和检索的效率。提升了文档管理和检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP的科研档案管理方法及系统

[0001]本专利技术涉及文档管理
，具体为一种基于NLP的科研档案管理方法及系统。

技术介绍

[0002]目前，金融、房地产、建筑、医疗等企事业单位的档案越来越多，不仅需要占用大量的存储空间，而且由于缺乏管理档案的专业人员，导致档案管理的其它各项成本成倍增加，这给企事业单位带来严重的经济负担，为此，很多企事业单位开始将档案委托专业档案管理企业进行管理。随着业务量的增加，档案管理企业管理的档案数量逐年增加。
[0003]但是目前档案管理企业的管理工作主要依靠人工处理，没有形成信息化管理，不仅管理成本高，而且档案管理过程中容易出现纰漏，甚至造成不可挽回的损失。

技术实现思路

[0004]本专利技术提供了一种基于NLP的科研档案管理方法及系统，解决了繁琐的手动分类工作，工作效率低的问题。
[0005]为解决上述专利技术目的，本专利技术提供的技术方案如下：
[0006]一种基于NLP的科研档案管理方法，包括以下步骤：基于Transformer模型，对科研文档进行分类并自动归类到设定的文件夹中，用于用户依据文件夹查询科研文档；依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索，提供相关联文档，用于为用户提供所需文档；通过对科研文档进行实体关系抽取，获取科研文档之间的关联性，构建科研知识图谱，以展示不同科研文档之间的关联度以及领域知识之间的关系；基于强化学习技术对用户的兴趣和研究方向进行分析，为用户推荐相关的科研文档、项...

【技术保护点】

【技术特征摘要】
1.一种基于NLP的科研档案管理方法，其特征在于，包括以下步骤：基于Transformer模型，对科研文档进行分类并自动归类到设定的文件夹中，用于用户依据文件夹查询科研文档；依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索，提供相关联文档，用于为用户提供所需文档；通过对科研文档进行实体关系抽取，获取科研文档之间的关联性，构建科研知识图谱，以展示不同科研文档之间的关联度以及领域知识之间的关系；基于强化学习技术对用户的兴趣和研究方向进行分析，为用户推荐相关的科研文档、项目以及合作伙伴。2.根据权利要求1所述的基于NLP的科研档案管理方法，其特征在于，所述对科研文档进行分类并自动归类到设定的文件夹中的步骤包括：对科研文档进行预处理后将文本转化为标记，构建词汇表，将每一个唯一的标记与一个整数编号映射，形成词嵌入的索引，所述预处理包括分词、去除停用词和标点符号；通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息，形成最终语义表示并输出；根据最终语义表示对科研文档进行分类，生成分类标签；通过文件夹索引将每个分类标签对应的文件夹路径进行保存，根据分类标签将每篇科研文档移动到相应的文件夹中。3.根据权利要求2所述的基于NLP的科研档案管理方法，其特征在于，所述通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息，形成最终语义表示并输出的步骤包括：通过嵌入层将文本中的标记转换为对应的词嵌入向量，每个标记对应一个固定长度的向量；在每个编码层进行自注意力计算，获得注意力得分，计算公式如下：；其中，为自然常数，为查询向量，用于衡量当前词与其他词的相似度，为键矩阵，表示所有词的键向量，用于衡量其他词对当前词的重要性, 为查询向量与键矩阵的转置相乘，得到相似度矩阵，表示每个词与其他词之间的相似度, 为相似度矩阵中的每一行，表示当前词与其他词之间的相似度，为相似度矩阵的行数，为注意力得分调制因子；将注意力得分与值矩阵相乘，得到对所有词的加权和，用于编码上下文信息，通过每个编码层的多个并行的自注意力头进行多次注意力得分和上下文编码，得到全面语义信息，所述值矩阵包含词嵌入信息；下一编码层获取上一编码层的全面语义信息，经过多个编码层逐步提取和整合形成最
终语义表示。4.根据权利要求2所述的基于NLP的科研档案管理方法，其特征在于，所述元数据信息包括所有科研文档的标题、摘要以及关键词，所述进行文档索引以及搜索的步骤包括：通过预训练语言模型对用户输入的查询文档进行预处理和编码，获得查询向量；将所有科研文档的元数据信息与预训练语言模型得到的文档内容表示向量进行组合，获得综合文档表示向量；将综合文档表示向量与主题建模得到的主题进行组合，得到文档主题向量；对查询向量与文档主题向量进行相似度计算，按照相似度从大到小的顺序，对所有科研文档进行排序。5.根据权利要求4所述的基于NLP的科研档案管理方法，其特征在于：相似度计算使用点积计算，计算公式为：；其中，表示查询向量, 表示文档主题向量。6.根据权利要求5所述的基于NLP的科研档案管理方法，其特征在于，所述构建科研知识图谱的步骤如下：对科研文档进行预处理，提取科研文档中的实体并建立实体之间的关联关系；将实体和关联关系以图的形式构建科研知识图谱，其中实体表示为图中的节点，关联关系表示为图中的边...

【专利技术属性】
技术研发人员：李军，马伟，马鑫，王顺天，李小青，
申请(专利权)人：中国人民解放军总医院第六医学中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人