技术标准的数字化处理方法技术

技术编号:7584880 阅读:198 留言:0更新日期:2012-07-20 05:06
本发明专利技术涉及计算机应用系统中的数据采集及处理技术的一种技术标准的数字化处理方法,包括步骤为:技术标准分页扫描为图像格式;使用OCR转换为PDF文件;创建主文件夹,创建公共属性;创建技术标准独立文件夹,设置公共属性值;技术标准的独立文件夹创建属性;上传PDF文件,抓取文本;后台数据处理软件自动识别分析所述PDF文件的每页OCR文本,将条文编号写入每页的条文编号属性;前台Web检索浏览系统。本发明专利技术解决现有数字化技术存在的弊端,实现海量技术标准数字化后的全文检索和索引创建。

【技术实现步骤摘要】

本专利技术涉及计算机应用系统中的数据采集及处理技木,可用于各类技术标准文本的数字化处理、索引创建和检索。尤其适用于对技术标准的分类。
技术介绍
技术标准的整编、分类、管理、使用对于各行业具有特別重大的意义,在促进技术进步、科技创新,保证设计质量方面起着重要的作用。而由于技术标准本身在分类、管理上的复杂性,传统的纸质技术标准文本和人工发放管理的方式已经难以适应新的设计管理模式的要求,尽管有部分技术标准开始采用数字化的分发方式,但目前纸质版本的使用还是主流,现有的数字化技术仅仅是将纸质版本扫描成图像或PDF文件,使用者在电脑上ー页页翻阅,对于大量的技术标准内容无法进行全文检索,也无法将技术标准的条文和条文说明相互參照。
技术实现思路
本专利技术所要解决的技术问题是提供适合处理行业技术标准数字化的相关信息处理技木,解决现有数字化技术存在的弊端,实现海量技术标准数字化后的全文检索和索引创建。还可以融入企业的整体信息平台,在技术标准数据库系统中提供对标准条文的讨论功能,成为企业知识管理的重要数据来源。本专利技术的基本方案为根据技术标准数字化应用的数据模型,综合考虑各种数据源和处理校对的工作量,本专利技术包括下列步骤1.将技术标准分页扫描为图像格式;2.使用OCR软件批量转换为PDF文件,OCR软件为现有通用的光学字符识别软件;3.在软件系统中创建主文件夹,包含公共属性,所述公共属性包括标准名称和 TAG,如下表所示权利要求1. 一种,包括下列步骤1)将技术标准分页扫描为图像格式;2)使用OCR软件批量转换为PDF文件;3)在软件系统中创建主文件夹,创建公共属性,所述公共属性包括标准名称和TAG;4)在文件管理器中为所述技术标准建立独立文件夹,设置所述公共属性值;5)在所述文件管理器中为所述技术标准的独立文件夹创建属性,所述属性包括页面内容和条文编号;6)在所述技术标准的独立文件夹内上传所述PDF文件,后台从所述PDF文件中抓取文本内容存入数据库;7)后台数据处理软件自动识别分析所述PDF文件的每页OCR文本,将条文编号写入每页的条文编号属性;8)前台Web检索浏览系统,可以根据技术标准的TAG属性过滤,在显示每ー页时,右侧提供具有同样条文编号的页面链接,并按页面内容属性分类。全文摘要本专利技术涉及计算机应用系统中的数据采集及处理技术的一种,包括步骤为技术标准分页扫描为图像格式;使用OCR转换为PDF文件;创建主文件夹,创建公共属性;创建技术标准独立文件夹,设置公共属性值;技术标准的独立文件夹创建属性;上传PDF文件,抓取文本;后台数据处理软件自动识别分析所述PDF文件的每页OCR文本,将条文编号写入每页的条文编号属性;前台Web检索浏览系统。本专利技术解决现有数字化技术存在的弊端,实现海量技术标准数字化后的全文检索和索引创建。文档编号G06K9/20GK102591878SQ20111000821公开日2012年7月18日 申请日期2011年1月14日 优先权日2011年1月14日专利技术者翟韦 申请人:上海现代建筑设计(集团)有限公司本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:翟韦
申请(专利权)人:上海现代建筑设计集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术