一种基于词汇的计算机索引和检索方法技术

技术编号:2876586 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术为一种基于词汇的计算机索引和检索方法。该方法的主要特征是对一段连续的文字信息,经过词汇分析处理后,通过添加隐形词汇的手段,实现对基于词汇索引和检索系统的检索质量提升。本发明专利技术能够有效的提升对词组和语句的检索质量,使用户获得更加准确的检索结果。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机网络技术,特别是。如何在如此海量的数据中定位自己需要的信息?检索系统成为了极其重要的辅助工具。检索系统只需用户输入简单的信息,如关心的主题关键词、短语等信息,就可以准确的定位到信息本身。由于检索给人们带来了极大的便利,因此迅速的被人们接受。在Internet用户使用的各类服务统计中,搜索引擎(互联网信息检索)服务成为仅次于电子邮件服务的第二大被使用服务。由于人们越来越依赖于检索服务去在海量信息中发现自己所需要的信息,检索系统的质量也就越来越被人们所关注。当前,人们主要采用的都是基于词汇的检索技术。在索引组织时,分为两种形式,一种是只纪录词汇是否在一篇文章中出现,并按照出现的次数等信息纪录权值,不纪录该词汇出现的位置;另一种是对出现的位置和权值信息都给以纪录。当然,利用第二种方式可以得到更好的结果,因为它记录了更多的信息,尤其是当我们进行词组检索时,如“计算机网络”时,利用位置信息可以轻易帮助我们定位到相应的文章。但是,为了纪录更多信息的代价是十分昂贵的。它会比第一种方式使用多出很多倍的硬件资源,并且大大降低了系统的性能,使得在相同的硬件条件下,能够处理的数据本文档来自技高网...

【技术保护点】
一种基于词汇的计算机索引和检索方法,该方法利用含内容分析子系统,索引子系统和检索子系统组成的计算机系统,执行基于词汇的索引和检索方法,其特征在于:该方法的步骤包括分析文本信息提取词汇和隐形词汇,对两种词汇建立索引并提供检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:雷鸣陈竞凯裘强林云谌振宇
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1