The invention discloses a design method of the vertical search engine prototype system based on Java, which includes the following steps: the first step is to clarify the purpose and significance of the research; the second step is to study and analyze the structure, principle, search strategy and phase correlation analysis algorithm of the subject network spider. The third step is to study the existing segmentation algorithm and inverted index technology as well as the index process and search process of the open source Lucene index framework. The fourth step is to implement the vertical search engine prototype system to the soybean subject. This invention based on the Java based soybean theme vertical search engine prototype system design method, taking the soybean website as the initial capture target website, the vertical search engine prototype system of soybean subject to the soybean based on Java technology, and providing data support for soybean portal, at the same time, for soybean theme information. The query provides a theoretical basis.
【技术实现步骤摘要】
一种基于Java的大豆主题的垂直搜索引擎原型系统设计方法
本专利技术涉及一种基于Java的大豆主题的垂直搜索引擎原型系统设计方法,属于农业互联网搜索引擎领域。
技术介绍
随着互联网技术的快速发展,网络信息资源呈现出爆炸性增长态势,如何快速找到满足用户需求的信息成为越来越重要的问题;目前,搜索引擎已成为互联网最重要的应用之一,传统的通用搜索引擎为所有用户提供统一接口,但随着信息量的持续增长,其已不能满足特定领域用户对信息准确性、实时性和深度等多方面的个性化需求,因而,专门用来查询某一学科领域或主题的搜索引擎即垂直搜索引擎应运而生,并得到快速的发展和广泛的应用。目前,互联网上的大豆相关信息极为丰富和广泛,一方面,对于从事大豆生产加工工作的豆农,不能很好地甚至不会利用搜索引擎在网络上进行信息查询,从而不能掌握大豆相关的最新技术信息,如大豆病虫害防治、种植技术及市场价格等信息,阻碍大豆产业的快速发展,因此,建立大豆门户网站对大豆产业信息资源进行整合,以提高资源共享的程度,本专利技术采用垂直搜索技术对大豆产业信息资源进行搜集,为大豆门户网站提供数据支撑;另一方面,对于从事大豆科研及流通工作的人员大多通过搜索引擎在互联网上获取相关信息;当用户使用通用搜索引擎进行信息检索时,往往得到的是海量的含有重复信息和垃圾信息的数据集,用户不能快速、准确的定位到需求信息;因此,需要设计一个面向大豆主题的垂直搜索引擎系统,为大豆领域的用户提供专业的搜索,为用户提供高质量的数据集,减少用户检索信息所耗费的时间和精力,以使用户在互联网上能够快速、准确地定位信息。
技术实现思路
为解决上述问题 ...
【技术保护点】
一种基于Java的大豆主题的垂直搜索引擎原型系统设计方法,其特征在于,所述方法包括以下步骤:第一步,明确研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计;第二步,网页信息采集的核心为网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地;本专利技术对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进;第三步,索引对象经过中文分词处理的网页文档,对已有的分词算法和倒排索引技术以及开源Lucene索引框架的索引过程和搜索过程进行研究;第四步,基于上述研究,按照软件工程学的理论对面向大豆主题的垂直搜索引擎原型系统进行实现,主要是对该系统中的网页信息采集、索引和管理与审核模块进行实现,最终为大豆门户网站提供大豆相关数据。
【技术特征摘要】
1.一种基于Java的大豆主题的垂直搜索引擎原型系统设计方法,其特征在于,所述方法包括以下步骤:第一步,明确研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计;第二步,网页信息采集的核心为网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地;本发明对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进;第三步,索引对象经过中...
【专利技术属性】
技术研发人员:马廷彦,
申请(专利权)人:哈尔滨派腾农业科技有限公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。