【技术实现步骤摘要】
一种文档检索系统及方法
本专利技术属于计算机
,具体涉及一种文档检索系统及方法。
技术介绍
随着信息时代的到来,可检索的文档的数量不断增长。如何有效地在大量文档中查找有用信息变得十分关键。信息检索(InformationRetrieval,IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为:搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。在进行文档检索时,文档检索系统具有两个主要任务:第一,针对用户查询来查找相关文档;第二,评估匹配结果并根据文档的相关性对文档进行排序。许多传统的文档检索系统依赖于关键字搜索。这些系统主要考虑若干特定因素来执行文档检索,例如查询在文档中出现的频率和位置、指向文档的超链接、文档访问信息,等等。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供了一种文档检索系统及方法,具有检索结果准确和检索效率高的优点。为达到上述目的,本专利 ...
【技术保护点】
1.一种文档检索系统,其特征在于,所述系统包括:/n输入单元,输入查询语句;/n分词单元,对所述查询语句进行分词划分以获得彼此不同的多个词语;/n第一检索单元,用于根据分词单元划分的多个词语进行第一次检索,得到第一检索结果;/n第二检索单元,用于在第一检索单元的基础上第二次检索,得到第二检索结果;/n输出单元,将第二检索结果进行输出,得到最终的结果。/n
【技术特征摘要】
1.一种文档检索系统,其特征在于,所述系统包括:
输入单元,输入查询语句;
分词单元,对所述查询语句进行分词划分以获得彼此不同的多个词语;
第一检索单元,用于根据分词单元划分的多个词语进行第一次检索,得到第一检索结果;
第二检索单元,用于在第一检索单元的基础上第二次检索,得到第二检索结果;
输出单元,将第二检索结果进行输出,得到最终的结果。
2.如权利要求1所述的文档检索系统,其特征在于,所述文档在进行前所前将进行如下处理:
用户基于对文档内容的理解,输入关键信息,或自动扫描文档并提取关键信息;
将所述关键信息以附加数据形式,存入所述文档;
打开/编辑所述文档时,跳过所述附加数据,从文档真实数据起始位置进行读写;文档保存时,所述附加数据依然存在,且该附加数据能够被编辑。
3.如权利要求2所述的文档检索系统,其特征在于,所述第一检索单元包括:
关键信息提取子单元,根据分词单元划分的多个词语作为检索词,自动扫描文档的附加数据;
文档信息检索子单元,判断所述文档是否存在与检索词匹配的附加数据,如果存在,针对附加数据进行基于内容的检索;如果不存在附加数据,则以二进制方式检索或跳过。
4.如权利要求3所述的文档检索系统,其特征在于,所述第二检索单元包括:
超图构造子单元,被配置为针对目标文档集合中的文档构造超图,以描述该文档中包含的隐含语义信息;
文档排序子单元,被配置为基于超图构造单元所构造的超图,针对特定查询在目标文档集合中进行检索,并对检索结果进行排序。
5.如权利要求4所述的文档检索系统,其特征在于,所述超图构造子单元包括:
概念抽取子模块,被配置为使用域本体信息从文档中抽取概念并计算概念的权重;
超图构造子模块,被配置为针对...
【专利技术属性】
技术研发人员:万江,王小乐,
申请(专利权)人:上海戈吉网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。