This invention discloses a design of agricultural vertical search system based on Lucene, including the following steps: the first step is to study the principle of network spider collection; the second step is to study the problem of the Chinese word segmentation of the search engine; the third step is to study how to remove the problem of repeated pages; the fourth step, the research of information extraction technology; and the fifth step, The structure design of the agricultural vertical search system; the sixth step, the full text search design of the agricultural vertical search system; the seventh step, the function development of the agricultural vertical search system. The Lucene based agricultural vertical search system is designed to establish an agricultural enterprise information base, supply information base and demand information base on the basis of Lucene to provide users with a text description based agricultural information search service. It also has the basic functions of general data mining, and can be called according to the user's access record. Home recommendation system provides users with recommendation information.
【技术实现步骤摘要】
一种基于Lucene的农业垂直搜索系统设计
本专利技术涉及一种基于Lucene的农业垂直搜索系统设计,属于农业互联网
技术介绍
互联网正以前所未有的态势改变着整个世界,它现在已经成为人类有史以来资源数量最多,数据种类最全,资源规模最大的一个综合信息库;其信息来源丰富、分布广泛,各种类型信息资源异构地分布于世界各地的网络中;如果不能使庞杂的信息有序化处理,就很难有效地获取;随着计算机技术和互联网技术的飞速发展,网络上的信息量急剧增长,要在浩如烟海的网络世界中寻找需要的信息,作为现代信息获取技术的主要应用,搜索引擎是不可缺少的。国内目前农业信息,特别是农业电子商务信息有了快速发展,各个电子商务网站里拥有大量的有价值的供求信息;应有效地利用目前各个电子商务网站中已有的供求信息,并形成纵向和横向的数据分析和对比,通过数据挖掘技术得出相关的数据供求特征关系,再以文字、表格或者图表等多种形式展现给用户,从而形成一个垂直搜索引擎系统;当前农业信息垂直搜索处于发展阶段,具有很好的发展前景。
技术实现思路
为解决上述问题,本专利技术提出了一种基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务。本专利技术的基于Lucene的农业垂直搜索系统设计,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策 ...
【技术保护点】
一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要 ...
【技术特征摘要】
1.一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设...
【专利技术属性】
技术研发人员:马廷彦,
申请(专利权)人:哈尔滨派腾农业科技有限公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。