一种基于Lucene的农业垂直搜索系统设计技术方案

技术编号:17796695 阅读:15 留言:0更新日期:2018-04-25 20:11
本发明专利技术公开了一种基于Lucene的农业垂直搜索系统设计,包括以下步骤:第一步,研究网络蜘蛛采集原理;第二步,研究搜索引擎中文分词的问题;第三步,研究如何去除重复页面的问题;第四步,信息抽取技术的研究;第五步,农业垂直搜索系统的结构设计;第六步,农业垂直搜索系统的全文搜索设计;第七步,农业垂直搜索系统的功能开发。本发明专利技术的基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。

Design of an agricultural vertical search system based on Lucene

This invention discloses a design of agricultural vertical search system based on Lucene, including the following steps: the first step is to study the principle of network spider collection; the second step is to study the problem of the Chinese word segmentation of the search engine; the third step is to study how to remove the problem of repeated pages; the fourth step, the research of information extraction technology; and the fifth step, The structure design of the agricultural vertical search system; the sixth step, the full text search design of the agricultural vertical search system; the seventh step, the function development of the agricultural vertical search system. The Lucene based agricultural vertical search system is designed to establish an agricultural enterprise information base, supply information base and demand information base on the basis of Lucene to provide users with a text description based agricultural information search service. It also has the basic functions of general data mining, and can be called according to the user's access record. Home recommendation system provides users with recommendation information.

【技术实现步骤摘要】
一种基于Lucene的农业垂直搜索系统设计
本专利技术涉及一种基于Lucene的农业垂直搜索系统设计,属于农业互联网

技术介绍
互联网正以前所未有的态势改变着整个世界,它现在已经成为人类有史以来资源数量最多,数据种类最全,资源规模最大的一个综合信息库;其信息来源丰富、分布广泛,各种类型信息资源异构地分布于世界各地的网络中;如果不能使庞杂的信息有序化处理,就很难有效地获取;随着计算机技术和互联网技术的飞速发展,网络上的信息量急剧增长,要在浩如烟海的网络世界中寻找需要的信息,作为现代信息获取技术的主要应用,搜索引擎是不可缺少的。国内目前农业信息,特别是农业电子商务信息有了快速发展,各个电子商务网站里拥有大量的有价值的供求信息;应有效地利用目前各个电子商务网站中已有的供求信息,并形成纵向和横向的数据分析和对比,通过数据挖掘技术得出相关的数据供求特征关系,再以文字、表格或者图表等多种形式展现给用户,从而形成一个垂直搜索引擎系统;当前农业信息垂直搜索处于发展阶段,具有很好的发展前景。
技术实现思路
为解决上述问题,本专利技术提出了一种基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务。本专利技术的基于Lucene的农业垂直搜索系统设计,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略,提高了中文分词的效率和准确性;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。本专利技术与现有技术相比较,本专利技术的基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。具体实施方式本专利技术的基于Lucene的农业垂直搜索系统设计,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略,提高了中文分词的效率和准确性;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。本专利技术的基于Lucene的农业垂直搜索系统设计,把基于垂直技术的文本搜索方式应用到农业信息领域,以农业电子商务网站和政府农业信息网站为采集对象,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。上述实施例,仅是本专利技术的较佳实施方式,故凡依本专利技术专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本专利技术专利申请范围内。本文档来自技高网...

【技术保护点】
一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。...

【技术特征摘要】
1.一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设...

【专利技术属性】
技术研发人员:马廷彦
申请(专利权)人:哈尔滨派腾农业科技有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1