The object of the present invention is to disclose a method for establishing full-text retrieval documents for engineering documents and databases, automatically converting engineering documents and databases in enterprise data assets into computer-recognizable text files, and establishing an index for full-text retrieval. For engineering documents, most of the OFFICE files, drawings, pictures or PDF documents, and three-dimensional models are covered. The data in the database is restored to the text file in the key-value pair format of \complete content\, and the foreign key information is replaced by a complete record. At the same time, each data value has a corresponding data name. The full-text retrieval is more efficient and accurate, and the purpose of the present invention is realized.
【技术实现步骤摘要】
一种对工程文件和数据库建立全文检索文档的方法
本专利技术涉及一种全文检索文档的方法,特别涉及一种用于软件开发的对工程文件和数据库建立全文检索文档的方法。
技术介绍
数据搜索有两种,一种是条件查询(criteriaquery),另一种是全文搜索(fulltextsearch)。条件查询是在明确查询条件之后的搜索,如通过物项编码查找物项,通过文件名查找文件,通过数据值范围查找数据值等等。这种查询机制,只需要分别对每种搜索规则确定对应的数据库搜索语句即可。而全文检索,则复杂得多。原理上,简单的说,全文检索先扫描所有的文档,建立一个索引文件。索引文件中每条信息是这样的:左边是一个单词,右边是包含该单词的所有文件的文件链表,所有的单词称为词典,这样当用户键入关键词时,只需在词典中找到对应的单词,即能快速确定所要查找的文档,最后从文档中提取出上下文内容反馈给用户即可。全文检索技术已经非常成熟,包括百度、谷歌等都采用全文检索技术给用户提供关键词相关的信息。目前,对于软件开发来说,也有成熟的开源的全文检索组件,如Lucene。软件开发者只需将Lucene作为组件引入其软件中,令其扫描要搜索的所有文档,建立一个索引文件,即可再利用Lucene向用户返回其关键词的上下文内容。对于软件开发者来说,其关键是准备好要搜索的所有文档,这些文档必须是计算机可以读取的(不是图片、三维模型等),且信息是完整的(无需像数据库那样通过外键跨表查询)。但是对于一个企业来说,其数据资产往往不能直接实现全文检索,原因是这些数据资产要么是计算机不能直接读取内容的工程文件,要么是包含大量符号的数据库。一 ...
【技术保护点】
1.一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S3、建立OCR模块,该模块配备了OCR(optical character recognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然 ...
【技术特征摘要】
1.一种对工程文件和数据库建立全文检索文档的方法,其特征在于,它包括如下步骤:S1、建立OFFICE文档转换模块,该模块能根据OFFICE文档的文件名,自动打开相应的OFFICE软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S2、建立图纸信息提取模块,该模块能够识别AutoCAD和其他格式的图纸文件,自动打开相应的设计软件,然后进行文档另存操作和数据处理,并生成相应的文本文件;S3、建立OCR模块,该模块配备了OCR(opticalcharacterrecognition)组件,能够识别图片或PDF中的文本信息,并将识别的文本内容写入后缀为“txt”的文件;S4、建立三维模型数据读取模块,该模块能够读取PDS/PDMS/SP3D的底层数据库内容,并将三维模型中物项的尺寸、材料、和连接关系等的数据写入后缀为“txt”的文件;S5、建立数据库内容还原模块,该模块连接企业的数据库,读取数据库中的每张数据表中的数据,进行处理后,将每张数据表中的数据写入一个后缀为“txt”的文件;S6、建立文档存储和索引模块,该模块能够对工程文件的目录进行管理,对目录中的文件逐一识别其格式,然后启动上述步骤S1至步骤S5中建立的模块,生成对应的文本文件,存入新的文件夹中;然后对所有转换后的文本文件,调用全文检索组件,建立索引文件,通过全文检索组件对外提供全文检索服务。2.如权利要求1所述的对工程文件和数据库建立全文检索文档的方法,其特征在于,所述OFFICE文档转换模块将WORD文档另存(saveas)为同名的后缀为“odt”的文件;将EXCE...
【专利技术属性】
技术研发人员:申屠军,郑明光,方舟,
申请(专利权)人:上海核工程研究设计院有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。