一种文件检索系统技术方案

技术编号:7759157 阅读:225 留言:0更新日期:2012-09-14 01:06
本发明专利技术公开了一种文件检索系统,该系统中划分文件领域,各文件领域具有其领域名词集,由参照文件选取的初步检索词在该系统中映射出具有所述初步检索词的相关文件领域,以所述相关文件领域的各领域名词集形成对比词库,所述对比词库与所述参照文件全文匹配,从所述对比词库中确定出新检索词以检索出与所述参照文件相关的目标文件。本发明专利技术的优点是通过确定准确、全面的检索词,全文、快速进行文件检索,以扩大检索范围、得到准确性高的目标文件,同时提高浏览效率。

【技术实现步骤摘要】

本专利技术涉及计算机软件,特别是一种文件检索系统
技术介绍
在互联网或某个资料库进行检索以寻找与参照内容相关的目标文件时,由于文件资料以一定的数据格式存在,比如word、pdf等,不利于互联网和资料库检索系统的快速检索,通常检索系统只能对文件资料的摘要进行检索,而不能对文件资料的内容进行全文检索,这样影响了检索范围的全面性和检索结果的准确性,而且由于检索时检索词选择不当、不准或不全面,都会造成检索结果片面、偏差、不准确;即使在检索到相关目标文件后,如何快速、高效的撷取其中的有效信息内容直接浏览,提高浏览效率,目前的文件检索系统未能达到这些目的。
技术实现思路
专利技术目的针对上述问题,本专利技术的目的是提供一种全面、快速的文件检索系统,拓宽检索的文件范围,克服人为主观因素的检索偏差,提高检索的准确性、全面性和浏览效率。技术方案一种文件检索系统,该系统中划分文件领域,各文件领域具有其领域名词集,由参照文件选取的初步检索词在该系统中映射出具有所述初步检索词的相关文件领域,以所述相关文件领域的各领域名词集形成对比词库,所述对比词库与所述参照文件全文匹配,从所述对比词库中确定出新检索词以检索出与所述参照文件相关的目标文件。所述新检索词按照所述对比词库中的每个领域名词在所述参照文件中的出现频率确定。对于对比词库中的领域名词在与参照文件全文匹配时,通常在参照文件中出现频率越闻,与参照文件的关联度就越闻,因此由此确定出新检索词,一方面能够提闻对目标文件检索的准确性,另一方面能够避免由于初步检索词的选取片面而造成的检索范围的缩小。在全文匹配检索时,通常希望得到某个文件中与检索词关联密切的段落,这样的段落往往是整个文件的重要信息所在,根据检索词在全文中的出现频率和分布密集度,确定重点段落,可以快速撷取重要部分,减少不必要的信息浏览,提高浏览效率。所述重点段落以快照形式与其对应的检索词建立索引关系,可以快速预览,而不需要通过该重点段落所在文件原来的形式或其他形式查看,无需对全文查看。有益效果本专利技术的优点是通过确定准确、全面的检索词,全文、快速进行文件检索,以扩大检索范围、得到准确性高的目标文件,同时提高浏览效率。具体实施方式 下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术一种文件检索系统,对文件划分文件领域{Va,Vb,Vc,…},每个文件领域根据其相应的名称和术语形成领域名词集{Val, Va2,Va3,…,Vax}、{Vbl,Vb2,Vb3,…,Vbx}、{Vcl,Vc2,Vc3,…,Vex}、…,该领域名词集可以是人为定义的,也可以是应用系统根据用户长期使用不断更新定义的。用户实际应用本专利技术文件检索系统检索时,首先提供初步检索词{Ukl,Uk2,Uk3,…},该初步检索词通常是用户依据已有的参照文件选取的,希望通过这些初步检索词检索到与参照文件相关的目标文件。以初步检索词在本专利技术文件检索系统中映射出具有这些初步检索词的相关文件领域如iVx,Vy,…},以相关文件领域各自的领域名词集{Vxl,Vx2, Vx3,…,Vxx}、{Vyl, Vy2, Vy3,…,Vyx}、...,形成对比词库{Vxl, Vx2, Vx3, ---,Vxx,Vyl, Vy2, Vy3, ···, Vyx,…},将对比词库与用户选取初步检索词依据的参照文件全文匹配,以对比词库中的每个领域名词在参照文件中的出现频率高低确定出与参照文件关联的新检索词如{Vx2,Vxx,Vyl,Vy3,Vyx,…},最后以新检索词再次检索,得到具有这些新检索词的文件,即为用户所需的与参照文件相关的目标文件。在全文匹配检索时,通常希望得到某个文件中与检索词关联密切的段落,这样的段落往往是整个文件的重要信息所在。例如通过检索词lUml,Um2, Um3, Um4, Um5}检索文件,本专利技术文件检索系统以检索词{Uml,Um2, Um3, Um4, Um5}对某篇文件全文检索,统计每个检索词在该篇文件的出现频率段落I IUml = 2, Um2 = 3, Um3 = O, Um4 = 5, Um5 = 6}、段落 2 {Uml = 0, Um2 = I, Um3 = 0, Um4 = 0, Um5 = 0}、段落 3 {Uml = I, Um2 = 2, Um3 =0,Um4 = 3,Um5 = 0}、…,通过对检索词在段落中的出现频率加权统计获得分布密集度段落I = 16、段落2 = I、段落3 = 6、···,根据检索词在全文的出现频率和分布密集度确定段落I和段落3为重点段落,而段落2为非重点段落,将段落I和段落2的内容转换为易于浏览的格式,比如html、tif等,将重点段落与对应的检索词建立索引关系,为用户直接浏览。权利要求1.ー种文件检索系统,其特征在于该系统中划分文件领域,各文件领域具有其领域名词集,由參照文件选取的初歩检索词在该系统中映射出具有所述初步检索词的相关文件领域,以所述相关文件领域的各领域名词集形成对比词库,所述对比词库与所述參照文件全文匹配,从所述对比词库中确定出新检索词以检索出与所述參照文件相关的目标文件。2.根据权利要求I所述的ー种文件检索系统,其特征在于所述新检索词按照所述对比词库中的每个领域名词在所述參照文件中的出现频率确定。3.根据权利要求I所述的ー种文件检索系统,其特征在于在全文匹配检索时,根据检索词在全文中的出现频率和分布密集度,确定重点段落。4.根据权利要求3所述的ー种文件检索系统,其特征在于所述重点段落以快照形式与其对应的检索词建立索引关系。全文摘要本专利技术公开了一种文件检索系统,该系统中划分文件领域,各文件领域具有其领域名词集,由参照文件选取的初步检索词在该系统中映射出具有所述初步检索词的相关文件领域,以所述相关文件领域的各领域名词集形成对比词库,所述对比词库与所述参照文件全文匹配,从所述对比词库中确定出新检索词以检索出与所述参照文件相关的目标文件。本专利技术的优点是通过确定准确、全面的检索词,全文、快速进行文件检索,以扩大检索范围、得到准确性高的目标文件,同时提高浏览效率。文档编号G06F17/30GK102662982SQ201210065538公开日2012年9月12日 申请日期2012年3月14日 优先权日2012年3月14日专利技术者卢苗辉, 彭彦, 胡钟山 申请人:镇江畅远信息科技有限公司本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:卢苗辉胡钟山彭彦
申请(专利权)人:镇江畅远信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1