当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于solr技术的分布式搜索方法及系统技术方案

技术编号:10634829 阅读:96 留言:0更新日期:2014-11-12 10:42
本发明专利技术公开了一种基于solr技术的分布式搜索方法及系统。其中,该方法包括:1)当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子文件进行自动分类;2)电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进行分布式索引;3)索引文件建立完毕后,用户输入查询语句进行电子文件的查询。该系统采用开源搜索工具Solr的分发模式,将查询请求分发到分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用户,实现了分布式垂直搜索。通过上述方式,本发明专利技术能够提高电子文件自动分类的准确性,增强系统的稳定性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于solr技术的分布式搜索方法及系统。其中,该方法包括:1)当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子文件进行自动分类;2)电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进行分布式索引;3)索引文件建立完毕后,用户输入查询语句进行电子文件的查询。该系统采用开源搜索工具Solr的分发模式,将查询请求分发到分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用户,实现了分布式垂直搜索。通过上述方式,本专利技术能够提高电子文件自动分类的准确性,增强系统的稳定性。【专利说明】一种基于sol r技术的分布式搜索方法及系统
本专利技术涉及信息检索领域,尤其是涉及一种基于solr技术的分布式搜索方法及 系统。
技术介绍
互联网技术得到飞速发展,网上的数据量急剧增长,海量数据的增多对通用搜索 引擎的搜索质量产生了巨大影响。这时,要在网上准确、快速找到自己需要的信息困难重 重。归结其原因有三点:一是,网上的信息是复杂无序的,且不同的网站有可能出现重复的 信息,因此利用搜索引擎查询到的搜索结果就会产生信息噪音;二是仅仅根据用户输入的 查询词语来判断用户真正的搜索意图是非常困难的;三是搜索引擎的爬虫程序不可能爬取 到所有互联网上的信息,或者说实时抓取网上信息。此时迫切需要有一种针对某一领域或 者主题的搜索引擎的出现。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于solr技术的分布式搜索方法及系 统,能够提高电子文件自动分类的准确性,增强系统的稳定性,并能对搜索结果进行合并去 重、自动分组,实现了垂直搜索,使搜索更加专注、具体和深入。 为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于solr技术的 分布式搜索方法,包括以下步骤: 1) 当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子 文件进行自动分类; 2) 电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进 行分布式索引,索引的内容包括电子文件的重要元数据和电子文件包含的电子文档的相关 元数据; 3) 索引文件建立完毕后,用户输入查询语句进行电子文件的查询; 其中,所述步骤3)具体包括:采用开源搜索工具Solr的分发模式,将查询请求分发到 分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用 户。 在本专利技术一较佳实施例中,所述步骤1)中对电子文件进行自动分类时,采用协调 因子来动态调整自动分类的侧重面,所述协调因子的大小为0-1。 在本专利技术一较佳实施例中,所述协调因子的大小为0. 5。 在本专利技术一较佳实施例中,所述步骤1)中的朴素贝叶斯算法,具体包括以下步 骤: 1. 1)词库的选择与处理:采用搜索引擎的索引工具对词库中相应类别的文档分别进行 索引处理; 1. 2)提取待分类文档的特征词:采用搜索引擎的安装组件,对文档的摘要和关键字信 息进行提取,然后对提取出的关键字进行去重,提选取特征词; 1. 3)将提取出的特征词采用贝叶斯公式与词库样本文档进行贝叶斯计算,获取待分类 文档针对每个分类的概率,然后比较概率值,获取最大的概率,从而找到待分类文档的所属 类别。 在本专利技术一较佳实施例中,所述步骤1. 3)中所述的贝叶斯公式为: Class (d) =argmax P(c|d); 其中,d :文档; c :分类; class (d):文档所属的类别; p(c|d):文档d属于类别c的概率; argmaxP(c|d):文档属于某一类别的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):给定分类的集合,在集合中属于c类的概率,取值为P (c) =l/n,其中n表示 分类的个数; 入:协调因子; bayes (c | d):利用贝叶斯公式求出文档d属于类别c的概率。 本专利技术还提供一种分布式搜索系统,所述系统包括: 自动分类器,用于对电子文件进行自动分类; 分布式索引和搜索装置,采用Solr的复制模式和分发模式,由复制模式对分布式节点 的索引文件进行备份,由分发模式进行分布式的搜索。 在本专利技术一较佳实施例中,所述系统还包括对查询语句进行智能提示的智能提示 装置、对搜索结果进行自动分组统计的分组统计装置和搜索结果权限过滤装置。 本专利技术的有益效果是:基于朴素贝叶斯算法,对电子文件进行自动分类并引入协 调因子来动态调整自动分类的侧重面,能够提高电子文件自动分类的准确性;基于一致性 哈希算法,对电子文件进行分布式索引,能够增强系统的稳定性;通过采用Slor的分发模 式,对分布式节点进行优化,并对搜索结果进行合并去重、自动分组,实现了垂直搜索,使搜 索更加专注、具体和深入。 【专利附图】【附图说明】 图1为本专利技术一种基于solr技术的分布式搜索方法及系统的流程示意图; 图2为本专利技术基于solr技术的分布式搜索方法中的分布式索引状态图; 图3为本专利技术基于solr技术的分布式搜索方法中的分布式搜索流程图; 图4为本专利技术分布式搜索系统软件体系结构图; 图5为本专利技术分布式搜索系统的自动分类器的类接口设计图; 图6为本专利技术分布式搜索系统的分布式索引装置的类接口设计图; 图7为本专利技术分布式搜索系统的搜索智能提示界面; 图8为本专利技术分布式搜索系统的高级检索界面; 图9为本专利技术分布式搜索系统的搜索结果界面; 附图中各部件的标记如下:1、索引器,2、搜索器。 【具体实施方式】 下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能 更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。 请参阅图1-图9,本专利技术实施例包括: 一种分布式搜索系统,所述系统包括: 1)自动分类器,用于对电子文件进行自动分类; ERMS离线客户端系统对电子文件进行登记归档时,要对电子文件进行自动分类,以便 于后续的分布式索引。由于电子文件下的文档可能和文件元数据描述的主题不一致,因此 不能完全依据ERMS离线客户端系统中定义的电子文件类型来对电子文件进行最终类型的 判定。本实施例中的自动分类器采用了协调因子由用户来设置因子的大小,即由用户决定 ERMS离线客户端系统定义的分类和贝叶斯分类各占的比例。其中,默认的协调因子的大小 为 0· 5。 所述的贝叶斯公式为: Class (d) =argmax P(c|d); 其中,d :文档; c :分类; class (d):文档所属的类别; p(c|d):文档d属于类别c的概率; argmaxP(c|d):文档属于某一类别的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):给定分类的集合,在集合中属于c类的概率,取值为P (c) =l/n,其中n表示 分类的个数; λ :协调因子,取值为0-1 ; bayes (c | d):利用贝叶斯公式求出文档d属于本文档来自技高网...

【技术保护点】
一种基于solr技术的分布式搜索方法,其特征在于,包括以下步骤:1)当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子文件进行自动分类;2)电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进行分布式索引,索引的内容包括电子文件的重要元数据和电子文件包含的电子文档的相关元数据;3)索引文件建立完毕后,用户输入查询语句进行电子文件的查询;其中,所述步骤3)具体包括:采用开源搜索工具Solr的分发模式,将查询请求分发到分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴含前姚莉王存哲李露
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1