一种企业科研成果管理方法及管理平台、设备、存储介质技术

技术编号:30235032 阅读:33 留言:0更新日期:2021-09-29 10:15
本发明专利技术公开了一种企业科研成果管理方法及管理平台、设备、存储介质,所述方法在导入PDF文档后,先对PDF文档进行处理以转换为XML文件,以便于进行关键词的自动提取,还从文档内容中对应提取了题录字段的相关内容进行存储,各题录字段内容对应不同的xml节点,将每个xml节点与题录字段的存储位置进行锚点匹配,以便于用户可以根据题录字段信息进行检索。对任意两个PDF文档提取的关键词进行词向量转换,通过计算两个词向量之间的相似度来进行任意两个PDF文档之间的动态关联,基于关键词的相似度计算可以自动挖掘出各个PDF文档之间的技术关联性,对技术点进行了动态关联,形成网状互联关系。状互联关系。状互联关系。

【技术实现步骤摘要】
一种企业科研成果管理方法及管理平台、设备、存储介质


[0001]本专利技术涉及区块链
,特别地,涉及一种企业科研成果管理方法及管理平台、设备、计算机可读取的存储介质。

技术介绍

[0002]创新是引领发展的第一动力,企业作为科技创新的主体地位正在不断强化,企业间的竞争从根本上是科技实力和创新能力的竞争,归根结底是科技成果商品化、产业化程度及其市场占有率的竞争。企业为了做大、做强、做精、做尖,都在努力构建和完善企业自主创新体系,依靠科技创新和技术进步加快传统劳动密集型产业的改造升级,实现发展方式根本性转变,其中各类科研开发和科研成果管理成为提升企业实力和竞争力的重要内容。这些科研成果汇聚了企业几代人的智慧,更是极其宝贵的智力资源。如何充分挖掘这些宝贵资源的价值,利用既往获得的成果帮助和指导企业的业务工作和技术创新的同时,更好的保护这些已经取得的丰硕科研成果不被非法传播和利用,成为困扰企业进行科技成果管理与转化的难题。
[0003]目前,有些企业通过搭建自己的企业科研成果管理平台实现了对自己企业的科研成果文件进行统一管理,但是,目前的企业科研成果管理平台只是将各个科研成果文件单独存储,相互之间没有关联性,无法实现技术资料的动态关联。

技术实现思路

[0004]本专利技术提供了一种企业科研成果管理方法及管理平台、设备、计算机可读取的存储介质,以解决现有的企业科研成果管理平台无法实现技术资料的动态关联的技术问题。
[0005]根据本专利技术的一个方面,提供一种企业科研成果管理方法,包括以下内容:导入企业科研成果文件,文件格式为PDF文档;存储导入的PDF文档,并对PDF文档进行结构化处理以提取出文档内容和文档逻辑结构,并基于提取的文档内容生成标准化的XML文件,从文档内容中提取出题录字段的信息并将其对应存储至数据库中的题录字段存储位置,文档内容中的各题录字段内容对应不同的xml节点,且每个xml节点分别与数据库的题录字段存储位置进行锚点匹配;从生成的XML文件中自动提取出关键词,并将提取出的关键词存储至数据库的关键词存储位置;将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联。
[0006]进一步地,所述将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联的过程具体包括以下内容:采用训练好的Word2vec模型将两个PDF文档中提取出来的关键词分别转换为两个词向量;
采用余弦距离计算公式计算两个词向量之间的相似度,当计算出来的余弦距离大于阈值时,对两个PDF文档进行自动关联。
[0007]进一步地,所述方法还包括以下内容:采用网络爬虫技术从互联网上抓取网页资讯信息,自动提取网页正文内容,对提取的网页内容进行清洗、去躁后导入数据库。
[0008]进一步地,所述方法还包括以下内容:对数据库中存储的企业科研成果文件进行加密。
[0009]进一步地,所述方法还包括以下内容:在数据库中进行企业科研成果文件检索。
[0010]另外,本专利技术的另一实施例还提供一种企业科研成果管理平台,包括:文件导入模块,用于导入企业科研成果文件,文件格式为PDF文档;文档处理模块,用于存储导入的PDF文档,并对PDF文档进行结构化处理以提取出文档内容和文档逻辑结构,并基于提取的文档内容生成标准化的XML文件,从文档内容中提取出题录字段的信息并将其对应存储至数据库中的题录字段存储位置,文档内容中的各题录字段内容对应不同的xml节点,且每个xml节点分别与数据库的题录字段存储位置进行锚点匹配;关键词提取模块,用于从生成的XML文件中自动提取出关键词,并将提取出的关键词存储至数据库的关键词存储位置;文档关联模块,用于将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联。
[0011]进一步地,所述平台还包括:外部信息抓取模块,用于采用网络爬虫技术从互联网上抓取网页资讯信息,自动提取网页正文内容,对提取的网页内容进行清洗、去躁后导入数据库。
[0012]进一步地,所述平台还包括:加密模块,用于对数据库中存储的企业科研成果文件进行加密。
[0013]另外,本专利技术的另一实施例还提供一种设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
[0014]另外,本专利技术的另一实施例还提供一种计算机可读取的存储介质,用于存储进行企业科研成果管理的计算机程序,所述计算机程序在计算机上运行时执行如上所述的方法的步骤。
[0015]本专利技术具有以下效果:本专利技术的企业科研成果管理方法,在导入PDF文档格式的企业科研成果文件后,先对PDF文档进行处理以转换为XML文件,以便于后续进行关键词的自动提取,并且,还从文档内容中对应提取了题录字段的相关内容进行存储,各题录字段内容对应不同的xml节点,并将每个xml节点与题录字段的存储位置进行锚点匹配,以便于用户可以根据题录字段信息进行检索。然后,从XML文件中自动提取出关键词进行存储,并针对任意两个PDF文档提取的关键词进行词向量转换,通过计算两个词向量之间的相似度来进行任意两个PDF文档之间
的动态关联,基于关键词的相似度计算可以自动挖掘出各个PDF文档之间的技术关联性,对技术点进行了动态关联,形成了网状互联关系。
[0016]另外,本专利技术的企业科研成果管理平台、设备、计算机可读取的存储介质同样具有上述优点。
[0017]除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。
附图说明
[0018]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例的企业科研成果管理方法的流程示意图。
[0019]图2是图1中步骤S2的子流程示意图。
[0020]图3是图1中步骤S3的子流程示意图。
[0021]图4是图1中步骤S4的子流程示意图。
[0022]图5是本专利技术另一实施例的企业科研成果管理平台的模块结构示意图。
具体实施方式
[0023]以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由下述所限定和覆盖的多种不同方式实施。
[0024]如图1所示,本专利技术的优选实施例提供一种企业科研成果管理方法,包括以下内容:步骤S1:导入企业科研成果文件,文件格式为PDF文档;步骤S2:存储导入的PDF文档,并对PDF文档进行结构化处理以提取出文档内容和文档逻辑结构,并基于提取的文档内容生成标准化的XML文件,从文档内容中提取出题录字段的信息并将其对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业科研成果管理方法,其特征在于,包括以下内容:导入企业科研成果文件,文件格式为PDF文档;存储导入的PDF文档,并对PDF文档进行结构化处理以提取出文档内容和文档逻辑结构,并基于提取的文档内容生成标准化的XML文件,从文档内容中提取出题录字段的信息并将其对应存储至数据库中的题录字段存储位置,文档内容中的各题录字段内容对应不同的xml节点,且每个xml节点分别与数据库的题录字段存储位置进行锚点匹配;从生成的XML文件中自动提取出关键词,并将提取出的关键词存储至数据库的关键词存储位置;将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联;从PDF文档中提取文档内容并生成标准化的XML文件的过程具体包括以下内容:采用OCR技术从PDF文档中识别出每个字符,并将每个字符的识别结果表示为一个字符区块,每个字符区块的内容包括字符的位置信息、字符的格式信息以及字符本身,若干个字符区块组成一个XML数据集合;基于字符的位置信息对若干个字符区块进行组合,得到多个字符区块组合;采用预设的分词模型从每个字符区块组合中提取词组,生成词组区块,所述词组区块包括至少两个字符区块;根据所述词组区块内第一个字符区块和最后一个字符区块的位置信息得到所述词组区块的位置信息;对词组区块进行校验处理,生成标准化的XML文件;从XML文件中自动提取关键词的过程包括以下内容:根据文档逻辑结构确定PDF文档包括的段落数量和每个段落的编号、位置范围,基于每个词组区块的位置信息和每个段落的编号、位置范围确定所述词组区块在PDF文档中的段落编号;基于所处段落中包含的标点符号字符区块的位置信息得到该段落中包含的语句数量和每个语句的编号、位置范围,基于每个词组区块的位置信息和每个语句的编号、位置范围确定所述词组区块在该段落中的语句编号;统计每个词组区块的出现次数,且基于词组区块每次出现所在的段落编号和语句编号计算位置权重,对多次计算得到的位置权重进行求和得到每个词组区块的总位置权重;按照总位置权重从高到低的顺序对多个词组区块进行依次排列,筛选出前N个词组区块,并将其作为关键词输出。2.如权利要求1所述的企业科研成果管理方法,其特征在于,所述将两个PDF文档中提取的关键词分别转换为两个特征向量,并基于两个特征向量计算两个PDF文档的相似度,对相似度计算结果大于阈值的两个PDF文档进行关联的过程具体包括以下内容...

【专利技术属性】
技术研发人员:许宁邓洋黄文杰
申请(专利权)人:中国建筑第五工程局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1