一种基于NLP的科研档案管理方法及系统技术方案

技术编号:39154407 阅读:10 留言:0更新日期:2023-10-23 15:00
本发明专利技术公开了一种基于NLP的科研档案管理方法及系统,涉及文档管理技术领域。该基于NLP的科研档案管理方法,基于Transformer模型,对科研文档进行分类并自动归类到设定的文件夹中;依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索,提供相关联文档;通过对科研文档进行实体关系抽取,获取科研文档之间的关联性,构建科研知识图谱,以展示不同科研文档之间的关联度以及领域知识之间的关系,通过智能分类,预训练语言模型和主题建模的文档索引搜索,以及实体关系抽取构建知识图谱,为科研人员提供了智能化的文档管理和搜索能力,使得科研人员能够更快速地定位相关文档,提升了文档管理和检索的效率。提升了文档管理和检索的效率。提升了文档管理和检索的效率。

【技术实现步骤摘要】
一种基于NLP的科研档案管理方法及系统


[0001]本专利技术涉及文档管理
,具体为一种基于NLP的科研档案管理方法及系统。

技术介绍

[0002]目前,金融、房地产、建筑、医疗等企事业单位的档案越来越多,不仅需要占用大量的存储空间,而且由于缺乏管理档案的专业人员,导致档案管理的其它各项成本成倍增加,这给企事业单位带来严重的经济负担,为此,很多企事业单位开始将档案委托专业档案管理企业进行管理。随着业务量的增加,档案管理企业管理的档案数量逐年增加。
[0003]但是目前档案管理企业的管理工作主要依靠人工处理,没有形成信息化管理,不仅管理成本高,而且档案管理过程中容易出现纰漏,甚至造成不可挽回的损失。

技术实现思路

[0004]本专利技术提供了一种基于NLP的科研档案管理方法及系统,解决了繁琐的手动分类工作,工作效率低的问题。
[0005]为解决上述专利技术目的,本专利技术提供的技术方案如下:
[0006]一种基于NLP的科研档案管理方法,包括以下步骤:基于Transformer模型,对科研文档进行分类并自动归类到设定的文件夹中,用于用户依据文件夹查询科研文档;依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索,提供相关联文档,用于为用户提供所需文档;通过对科研文档进行实体关系抽取,获取科研文档之间的关联性,构建科研知识图谱,以展示不同科研文档之间的关联度以及领域知识之间的关系;基于强化学习技术对用户的兴趣和研究方向进行分析,为用户推荐相关的科研文档、项目以及合作伙伴。
[0007]优选地,所述对科研文档进行分类并自动归类到设定的文件夹中的步骤包括:对科研文档进行预处理后将文本转化为标记,构建词汇表,将每一个唯一的标记与一个整数编号映射,形成词嵌入的索引,所述预处理包括分词,去除停用词和标点符号;通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息,形成最终语义表示并输出;根据最终语义表示对科研文档进行分类,生成分类标签;通过文件夹索引将每个分类标签对应的文件夹路径进行保存,根据分类标签将每篇科研文档移动到相应的文件夹中。
[0008]优选地,所述通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息,形成最终语义表示并输出的步骤包括:通过嵌入层将文本中的标记转换为对应的词嵌入向量,每个标记对应一个固定长度的向量;在每个编码层进行自注意力计算,获得注意力得分,计算公式如下:
[0009][0010]其中,为自然常数,为查询向量,用于衡量当前词与其他词的相似度,为键矩阵,表示所有词的键向量,用于衡量其他词对当前词的重要性, 为查询向量与键矩阵的转置相乘,得到相似度矩阵,表示每个词与其他词之间的相似度, 为相似度矩阵中的每一行,表示当前词与其他词之间的相似度,为相似度矩阵的行数,为注意力得分调制因子;将注意力得分与值矩阵相乘,得到对所有词的加权和,用于编码上下文信息,通过每个编码层的多个并行的自注意力头进行多次注意力得分和上下文编码,得到全面语义信息,所述值矩阵包含词嵌入信息;下一编码层获取上一编码层的全面语义信息,经过多个编码层逐步提取和整合形成最终语义表示。
[0011]优选地,所述元数据信息包括所有科研文档的标题、摘要以及关键词,所述进行文档索引以及搜索的步骤包括:通过预训练语言模型对用户输入的查询文档进行预处理和编码,获得查询向量;将所有科研文档的元数据信息与预训练语言模型得到的文档内容表示向量进行组合,获得综合文档表示向量;将综合文档表示向量与主题建模得到的主题进行组合,得到文档主题向量;对查询向量与文档主题向量进行相似度计算,按照相似度从大到小的顺序,对所有科研文档进行排序。
[0012]优选地,相似度计算使用点积计算,计算公式为:
[0013][0014]其中,表示查询向量, 表示文档主题向量。
[0015]优选地,所述构建科研知识图谱的步骤如下:对科研文档进行预处理,提取科研文档中的实体并建立实体之间的关联关系;将实体和关联关系以图的形式构建科研知识图谱,其中实体表示为图中的节点,关联关系表示为图中的边;在科研知识图谱中计算实体之间的关联度,计算公式为:
[0016][0017]其中和均文档节点,表示和之间的最小长度,所述关联度的值越大,两个实体之间的关系越强。
[0018]优选地,所述对用户的兴趣和研究方向进行分析的步骤如下:收集用户的使用数据,所述使用数据包括在平台的历史活动以及用户提供的科研文档和查询文档;将使用数据整合成用户状态向量,用于将用户的兴趣和研究方向映射到向量空间;建立深度学习策略网络,所述深度学习策略网络的输入为用户状态向量,输出为各个可能动作的选择概率,所述可能动作包括科研文档、项目和合作伙伴推荐;基于设定的奖励函数,根据用户的行为给予反馈信息,所述反馈信息用于调整奖励函数和优化深度学策略网络,指导深度学习策略网络训练。
[0019]一种基于NLP的科研档案管理系统,用于上述的一种基于NLP的科研档案管理方法,包括文档归类模块、文档索引与搜索模块、知识图谱构建与展示模块、个性化推荐模块
和协同编辑模块,其中:所述文档归类模块基于Transformer模型,通过识别文档中的关键词、主题和语义信息,对科研文档进行分类并自动归类到设定的文件夹中,用于用户依据文件夹查询科研文档;所述文档索引与搜索模块依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索,计算文档与查询的相似度,用于为用户提供所需文档,返回相关的文档结果;所述知识图谱构建与展示模块通过对科研文档进行实体关系抽取,获取科研文档之间的关联性,构建科研知识图谱,以展示不同科研文档之间的关联度以及领域知识之间的关系;所述个性化推荐模块基于用户的历史行为和研究方向,使用强化学习技术分析用户的兴趣,为用户推荐相关的科研文档、项目和合作伙伴,并持续与用户互动,根据用户的反馈不断优化推荐结果;所述协同编辑模块提供协同编辑功能,支持多人协作撰写、编辑文档,允许多个用户可以共同编辑文档,记录每个用户的贡献和修改。
[0020]优选地,所述文档归类模块包括预处理单元,最终语义形成单元和分类单元,其中:所述预处理单元用于对科研文档进行预处理后将文本转化为标记,构建词汇表,将每一个唯一的标记与一个整数编号映射,形成词嵌入的索引,所述预处理包括分词、去除停用词和标点符号;所述最终语义形成单元用于通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息,形成最终语义表示并输出;所述分类单元根据最终语义表示对科研文档进行分类,生成分类标签,文件夹索引将每个分类标签对应的文件夹路径进行保存,根据分类标签将每篇科研文档移动到相应的文件夹中。
[0021]优选地,所述文档索引与搜索模块包括查询向量获取单元,文档主题向量获取单元和排序单元,其中:所述查询向量获取单元通过预训练语言模型对用户输入的查询文档进行预处理和编码,获得查询向量;所述文档主题向量获取单元用于将所有科本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP的科研档案管理方法,其特征在于,包括以下步骤:基于Transformer模型,对科研文档进行分类并自动归类到设定的文件夹中,用于用户依据文件夹查询科研文档;依据预训练语言模型和主题建模以及科研文档的元数据信息进行文档索引以及搜索,提供相关联文档,用于为用户提供所需文档;通过对科研文档进行实体关系抽取,获取科研文档之间的关联性,构建科研知识图谱,以展示不同科研文档之间的关联度以及领域知识之间的关系;基于强化学习技术对用户的兴趣和研究方向进行分析,为用户推荐相关的科研文档、项目以及合作伙伴。2.根据权利要求1所述的基于NLP的科研档案管理方法,其特征在于,所述对科研文档进行分类并自动归类到设定的文件夹中的步骤包括:对科研文档进行预处理后将文本转化为标记,构建词汇表,将每一个唯一的标记与一个整数编号映射,形成词嵌入的索引,所述预处理包括分词、去除停用词和标点符号;通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息,形成最终语义表示并输出;根据最终语义表示对科研文档进行分类,生成分类标签;通过文件夹索引将每个分类标签对应的文件夹路径进行保存,根据分类标签将每篇科研文档移动到相应的文件夹中。3.根据权利要求2所述的基于NLP的科研档案管理方法,其特征在于,所述通过多个编码层堆叠形成的Transformer编码器逐步提取和整合文本信息,形成最终语义表示并输出的步骤包括:通过嵌入层将文本中的标记转换为对应的词嵌入向量,每个标记对应一个固定长度的向量;在每个编码层进行自注意力计算,获得注意力得分,计算公式如下:;其中,为自然常数,为查询向量,用于衡量当前词与其他词的相似度,为键矩阵,表示所有词的键向量,用于衡量其他词对当前词的重要性, 为查询向量与键矩阵的转置相乘,得到相似度矩阵,表示每个词与其他词之间的相似度, 为相似度矩阵中的每一行,表示当前词与其他词之间的相似度,为相似度矩阵的行数,为注意力得分调制因子;将注意力得分与值矩阵相乘,得到对所有词的加权和,用于编码上下文信息,通过每个编码层的多个并行的自注意力头进行多次注意力得分和上下文编码,得到全面语义信息,所述值矩阵包含词嵌入信息;下一编码层获取上一编码层的全面语义信息,经过多个编码层逐步提取和整合形成最
终语义表示。4.根据权利要求2所述的基于NLP的科研档案管理方法,其特征在于,所述元数据信息包括所有科研文档的标题、摘要以及关键词,所述进行文档索引以及搜索的步骤包括:通过预训练语言模型对用户输入的查询文档进行预处理和编码,获得查询向量;将所有科研文档的元数据信息与预训练语言模型得到的文档内容表示向量进行组合,获得综合文档表示向量;将综合文档表示向量与主题建模得到的主题进行组合,得到文档主题向量;对查询向量与文档主题向量进行相似度计算,按照相似度从大到小的顺序,对所有科研文档进行排序。5.根据权利要求4所述的基于NLP的科研档案管理方法,其特征在于:相似度计算使用点积计算,计算公式为:;其中,表示查询向量, 表示文档主题向量。6.根据权利要求5所述的基于NLP的科研档案管理方法,其特征在于,所述构建科研知识图谱的步骤如下:对科研文档进行预处理,提取科研文档中的实体并建立实体之间的关联关系;将实体和关联关系以图的形式构建科研知识图谱,其中实体表示为图中的节点,关联关系表示为图中的边...

【专利技术属性】
技术研发人员:李军马伟马鑫王顺天李小青
申请(专利权)人:中国人民解放军总医院第六医学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1