一种对工程文件和数据库建立全文检索文档的方法技术

技术编号:21343556 阅读:31 留言:0更新日期:2019-06-13 22:29
本发明专利技术的目的在于公开一种对工程文件和数据库建立全文检索文档的方法,自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件,并建立全文检索的索引,针对的工程文件,涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等,将数据库中的数据还原成“内容完整”的键值对格式的文本文件,把外键信息用完整的记录替代,同时每个数据值都有对应的数据名,全文检索的效率更高,准确性更好,实现本发明专利技术的目的。

A Method of Building Full-Text Retrieval Documents for Engineering Documents and Database

The object of the present invention is to disclose a method for establishing full-text retrieval documents for engineering documents and databases, automatically converting engineering documents and databases in enterprise data assets into computer-recognizable text files, and establishing an index for full-text retrieval. For engineering documents, most of the OFFICE files, drawings, pictures or PDF documents, and three-dimensional models are covered. The data in the database is restored to the text file in the key-value pair format of \complete content\, and the foreign key information is replaced by a complete record. At the same time, each data value has a corresponding data name. The full-text retrieval is more efficient and accurate, and the purpose of the present invention is realized.

【技术实现步骤摘要】
一种对工程文件和数据库建立全文检索文档的方法
本专利技术涉及一种全文检索文档的方法,特别涉及一种用于软件开发的对工程文件和数据库建立全文检索文档的方法。
技术介绍
数据搜索有两种,一种是条件查询(criteriaquery),另一种是全文搜索(fulltextsearch)。条件查询是在明确查询条件之后的搜索,如通过物项编码查找物项,通过文件名查找文件,通过数据值范围查找数据值等等。这种查询机制,只需要分别对每种搜索规则确定对应的数据库搜索语句即可。而全文检索,则复杂得多。原理上,简单的说,全文检索先扫描所有的文档,建立一个索引文件。索引文件中每条信息是这样的:左边是一个单词,右边是包含该单词的所有文件的文件链表,所有的单词称为词典,这样当用户键入关键词时,只需在词典中找到对应的单词,即能快速确定所要查找的文档,最后从文档中提取出上下文内容反馈给用户即可。全文检索技术已经非常成熟,包括百度、谷歌等都采用全文检索技术给用户提供关键词相关的信息。目前,对于软件开发来说,也有成熟的开源的全文检索组件,如Lucene。软件开发者只需将Lucene作为组件引入其软件中,令其扫描要搜索的所有文档,建立一个索引文件,即可再利用Lucene向用户返回其关键词的上下文内容。对于软件开发者来说,其关键是准备好要搜索的所有文档,这些文档必须是计算机可以读取的(不是图片、三维模型等),且信息是完整的(无需像数据库那样通过外键跨表查询)。但是对于一个企业来说,其数据资产往往不能直接实现全文检索,原因是这些数据资产要么是计算机不能直接读取内容的工程文件,要么是包含大量符号的数据库。一般工程文件中包括OFFICE文档(word文档、excel文档等、PDF文档、以及TXT文档),各种设计软件形成的图纸(如AutoCAD图纸、工艺系统的系统流程图、电仪控系统的原理图等)、以及各种设计软件形成的三维模型(如PDMS形成的工厂布置模型,SOLIDWORKS形成的设备结构模型等)。这种工程文件中蕴藏着很多信息,但不能被计算机直接读取,从而无法建立全文检索的索引。而数据库中,每张数据表的信息往往不是相对完整的,数据表里有大量的主键和外键(都是ID),而且每个数据只有值没有名(数据名是数据表的字段),因此如果只读取数据表中的信息而不做任何“还原”处理的话,那么即使对数据表的内容建立了索引,也是无意义的。因此,特别需要一种对工程文件和数据库建立全文检索文档的方法,以解决上述现有存在的问题。
技术实现思路
本专利技术的目的在于提供一种对工程文件和数据库建立全文检索文档的方法,针对现有技术的不足,对工程文件和数据库进行处理,生成对应的可检索的文件,从而满足全文检索的要求,解决了企业数据资产中工程文件和数据库无法服务于全文检索的问题。本专利技术所解决的技术问题可以采用以下技术方案来实现:一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S3、建立OCR模块,该模块配备了OCR(opticalcharacterrecognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。在本专利技术的一个实施例中,所述OFFICE文档转换模块将WORD文档另存(saveas)为同名的后缀为“odt”的文件;将EXCEL文档另存(saveas)为同名的后缀为“csv”的文件;将VISIO文档另存(saveas)为同名的后缀为“vdx”的文件,且同时只保留vdx文件中的<text></text>之间的内容。在本专利技术的一个实施例中,所述图纸信息提取模块将AutoCAD的图纸另存(saveas)为同名的后缀为“csv”的文件。在本专利技术的一个实施例中,所述数据库内容还原模块将数据表中的外键数据,通过跨表查询后,外键数据(一般是ID)用跨表查询得到的关联表中的数据记录(即关系型数据库的一行)来代替。在本专利技术的一个实施例中,所述数据库内容还原模块写入txt文件时,采用嵌套的“键-值对”的JSON格式,即对于每条记录,形式如“{字段1:数据1,字段2:{字段21:数据21,字段22:数据22,……},……}”。在本专利技术的一个实施例中,所述文档存储和索引模块能够分门别类地存放上述转换前的工程文件和转换后的文本文件,同时能够对上述转换后的文本文件建立全文检索的索引,同时提供对外全文检索的服务。在本专利技术的一个实施例中,所述文档存储和索引模块能够实时识别工程文件的更新或增删情况,并根据更新增删情况,启动前述5个模块,重新对更新或增删的工程文件,重新生成对应的文本文件,并更新全文检索的索引。本专利技术的对工程文件和数据库建立全文检索文档的方法,与现有技术相比,自动地将企业数据资产中的工程文件和数据库转换为计算机可识别的文本文件,并建立全文检索的索引,针对的工程文件,涵盖了大部分的OFFICE文件、图纸、图片或PDF文档、和三维模型等,将数据库中的数据还原成“内容完整”的键值对格式的文本文件,把外键信息用完整的记录替代,同时每个数据值都有对应的数据名,全文检索的效率更高,准确性更好,实现本专利技术的目的。本专利技术的特点可参阅本案图式及以下较好实施方式的详细说明而获得清楚地了解。附图说明图1为本专利技术的5个内容转换模块和1个文档存储和索引模块的结构示意图;图2为本专利技术的数据库内容还原的示意图。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。实施例如图1和图2所示,本专利技术的对工程文件和数据库建立全文检索文档的方法,包括文档存储和索引模块1、OFFICE文档转换模块2、图纸信息提取模块3、OCR模块4、三维模型数据读取模块5、数据库内容还原模块6。本专利技术的对工程文件和数据库建立全文检索文档的方法,它包括步骤如下:S1、建立OFFICE文档转换模块2。OFFICE软件允许用户开发插件,因此可以在word、excel、visio中编写文档转换的插件。其中,在WORD中编写的插件,其功能是将WORD文档另存为同名的后缀为“odt”的文件。在EXCEL中编写的插件,其功能是本文档来自技高网
...

【技术保护点】
1.一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S3、建立OCR模块,该模块配备了OCR(optical character recognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。...

【技术特征摘要】
1.一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S3、建立OCR模块,该模块配备了OCR(opticalcharacterrecognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。2.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述OFFICE文档转换模块将WORD文档另存(saveas)为同名的后缀为“odt”的文件;将EXCE...

【专利技术属性】
技术研发人员:申屠军郑明光方舟
申请(专利权)人:上海核工程研究设计院有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1