一种基于Lucene的医疗搜索引擎服务系统建设方法技术方案

技术编号:17796698 阅读:27 留言:0更新日期:2018-04-25 20:11
本发明专利技术公开了一种基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:第一步,实现对网络信息的分布式抓取与检索;第二步,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器;第四步,设计新的网页评分机制。本发明专利技术的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map‑reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

A medical search engine service system construction method based on Lucene

The invention discloses a method of building a medical search engine service system based on Lucene. The method includes the following steps: the first step is to realize the distributed capture and retrieval of network information; the second step, the analysis and segmentation of professional vocabulary; the third step, the construction of search engine information retrieval server; the fourth step, Design a new web page scoring mechanism. The Lucene based medical search engine service system construction method, by analyzing the basic principle of the search engine, using the Hadoop map reduce programming model, and based on the Lucene Open Source Toolkit, a search engine service system suitable for medical field is developed.

【技术实现步骤摘要】
一种基于Lucene的医疗搜索引擎服务系统建设方法
本专利技术涉及一种基于Lucene的医疗搜索引擎服务系统建设方法,属于医疗卫生服务互联网

技术介绍
近年来,计算机与互联网技术迅猛发展,网络上的信息量与日俱增,人们要从如此庞大的信息量中搜索出我们需要的信息成了一项重要而艰巨的任务;搜索引擎在网络世界中正扮演着越来越重要的角色;搜索引擎的信息检索和索引效率是决定一个搜索引擎性能的关键因素;当信息量增大,索引量也随之增大,这时搜索引擎服务器的压力会显著升高,搜索引擎的索引更新效率会明显下降。因此,单机型的搜索引擎系统难以满足高数据量和高并发量的需求,为了提高搜索引擎的新能,提升系统处理海量数据的能力,构建分布式的搜索引擎系统是解决问题的有效方法;Hadoop是云计算领域最具代表性的一个开源项目,Hadoop为广大开发者提供了很好的分布式框架,使开发者开发出适合自己的分布式应用程序。当前,互联网上的各种搜索引擎得到了广大用户的青睐;然而,随着各个领域信息的不断深入和细化,通用的搜索引擎已经越来越难以满足不同领域用户的需求;因此,开发出针对特定领域的信息搜索引擎是非常有必要的;众所周知,医疗卫生事业是关系着人类生存、健康的重要事业;随着科技的发展,医疗卫生领域的信息化不断加深,医疗领域的信息量日渐庞大,人们对医疗信息的获取也日益迫切;如何快速、准确地获取第一手的医疗信息是人们亟待解决的问题。
技术实现思路
为解决上述问题,本专利技术提出了一种基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。本专利技术的基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。本专利技术与现有技术相比较,本专利技术的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。具体实施方式本专利技术的基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。本专利技术的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。上述实施例,仅是本专利技术的较佳实施方式,故凡依本专利技术专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本专利技术专利申请范围内。本文档来自技高网...

【技术保护点】
一种基于Lucene的医疗搜索引擎服务系统建设方法,其特征在于,所述方法包括以下步骤:第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map‑reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。

【技术特征摘要】
1.一种基于Lucene的医疗搜索引擎服务系统建设方法,其特征在于,所述方法包括以下步骤:第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切...

【专利技术属性】
技术研发人员:李淑范
申请(专利权)人:哈尔滨光凯科技开发有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1