一种科技文献的题录数据提取方法技术

技术编号:27616577 阅读:26 留言:0更新日期:2021-03-10 10:48
本发明专利技术提供一种科技文献的题录数据提取方法,包括以下步骤:S1、上传科技文献PDF至存储模块;S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配;S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过。可实现自动提取科技文献中题录数据用于文件的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。发挥文献最大价值。发挥文献最大价值。

【技术实现步骤摘要】
一种科技文献的题录数据提取方法


[0001]本专利技术涉及计算机数据提取
,具体涉及一种科技文献的题录数据提取方法。

技术介绍

[0002]科技文献是科技发展技术积累的结晶,是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展,科技文献的积累日益丰富,互联网拥有很多公开的PDF科技文献资源,资源中包含了众多有价值、值得挖掘的信息。但是和传统网页,Word,txt等文档相比,科技文献PDF格式多样,也存在缺乏结构信息,提取题录数据,非常困难,不便于科技人员快速对文献的检索。
[0003]在中国专利申请公布号为CN 109726369A中公开了一种基于标准文献的智能模板化题录技术实现方法,该申请文献中通过提供的基于标准文献的智能模板化题录技术实现方法,解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集。但是对于一些特本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种科技文献的题录数据提取方法,其特征在于,包括以下步骤:S1、上传科技文献PDF至存储模块,同时记录上传者、以及上传时间信息;S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,并同时输出匹配结果,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配,直至匹配结果符合要求,向审核人员提交;S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过,审核通过后将题录数据保存至数据库中。2.如权...

【专利技术属性】
技术研发人员:王卓李皓琛王者刘昌鑫王英海
申请(专利权)人:成都材智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1