基于搜索引擎的快速准确定位文件的方法和设备技术

技术编号:21034612 阅读:29 留言:0更新日期:2019-05-04 05:32
本发明专利技术涉及基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、为所述文件片段添加分词并建立索引文件;步骤4、根据用户的检索词查找与检索词近似的分词,分词所对应的索引文件作为检索结果。本发明专利技术采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,在用户检索时能够精、快、准的定位到用户想要找的目标文件。

【技术实现步骤摘要】
基于搜索引擎的快速准确定位文件的方法和设备
本专利技术涉及一种基于搜索引擎的快速准确定位文件的方法和设备,属于信息检索领域。
技术介绍
传统的搜索引擎方案是对内部资源的文件名称、标题、创建人、时间等纬度创建索引,方便使用者以关键字的形式定位文件。利用Elasticsearch作为搜索框架,使用java作为开发语言。与google、百度搜索引擎原理类似都是帮助我们用前所未有的速度去处理大规模数据,并支持结构化、非结构化类型数据。公开号为CN101630315A的专利技术专利《一种更快速检索方法及系统》,其为解决快速定位信息采用的技术方案是:抽取文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。该技术方案仅抽取前、后若干字符信息作为描述文档,在描述文档上建立索引,其不能准确且全面反映整个待检索对象所包含的全部信息,因此,仍存在漏检,检索结构不准确的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供一种基于搜索引擎的快速准确定位文件的方法,其以文件分段的方式对检索库中的文件建立索引文件,不仅能够应用于文本文件,还可以应用于音频、视频文件,实现快速、准确定位文件。本专利技术的技术方案一如下:基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。更优地,在读取本地源文件的过程中,采用批处理程序进行读取。本专利技术还提供基于搜索引擎的快速准确定位文件的设备。本专利技术技术方案二如下:基于搜索引擎的快速准确定位文件的设备,包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。更优地,在读取本地源文件的过程中,采用批处理程序进行读取。本专利技术具有如下有益效果:本专利技术基于搜索引擎的快速准确定位文件的方法,采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,从而在用户检索时能够精、快、准的定位到用户想要找的目标文件。附图说明图1为本专利技术基于搜索引擎的快速准确定位文件的方法的流程图;图2为本专利技术搜索文档的结果示意图;图3为本专利技术搜索视频的结果示意图。具体实施方式下面结合附图和具体实施例来对本专利技术进行详细的说明。实施例一请参阅图1,一种基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;在读取本地源文件的过程中,可以采用批处理程序进行读取,批处理主要是解决了单线程处理文件速度比较慢,设置了多线程模式可以快速加载文件到内存中,供程序转换使用;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;本专利技术还可以将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。在生成文件片段时,原文件保持不变,仅是将分段截取后每段内容重新生成一个文件片段;步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。当用户点击索引文件时,从检索库中读取对应该索引文件的源文件。当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。例如,如果该分词位于文件的标题位置,其权重值越大,分值就越高。在本实施例中,将文件进行分段截取,方便存储和定位文件,且能够定位检索词在文件及文件内容中的位置,实现快速定位的同时确保检索的正确性和全面性。所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本(例如歌曲,存在对应的歌词)根据换行标志进行分段截取,由于每一段语音都对应存在时间戳,定位到语音文中的某一段,即可根据其时间戳找到对应的语音位置;所述视频文件将其字幕,根据换行标志进行分段截取,由于每一段字幕都对应存在时间戳,定位到字幕中的某一段,即可根据其时间戳找到对应的视频位置。通过上述分段截取方式,即可完成几乎所有文件的文件模块化处理。请参阅图2,用户输入检索词“小微企业”搜索文档,在分词库中,存在“小”“微”“企业”这几个分词,因此在检索结果中,存本文档来自技高网...

【技术保护点】
1.基于搜索引擎的快速准确定位文件的方法,其特征在于:包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。

【技术特征摘要】
1.基于搜索引擎的快速准确定位文件的方法,其特征在于:包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。2.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。3.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。4.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。5.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:在读取本地源文件的过程中,采用批处理程序进行读取。6.基于搜索引擎的快速准确定位...

【专利技术属性】
技术研发人员:陈云龙张建陈章辉尤毅刘洋邑陈锐
申请(专利权)人:中国银行业监督管理委员会福建监管局兴业银行股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1