一种分布式校园内网搜索系统技术方案

技术编号:25599168 阅读:24 留言:0更新日期:2020-09-11 23:56
本发明专利技术提供了一种分布式校园内网搜索系统,属于计算机技术领域。通过对在范围内获取的网页信息和文本信息进行处理,使其形成纯文本,并以此构建一种搜索系统,用于实现网络爬虫子系统、信息预处理子系统、索引器子系统、查询器子系统,可以使得校园网用户检索信息方便、快捷。

【技术实现步骤摘要】
一种分布式校园内网搜索系统
本专利技术属于计算机
,涉及一种分布式校园内网搜索系统。
技术介绍
随着目前高校校园网的不断发展,各所高校越来越重视数字化建设,并迅速步入了信息化高速发展的阶段。随着校园网的不断完善,这就要求给广大师生提供一个良好的信息化教学、科研和管理平台。目前,各所高校对数字化校园建设非常重视,如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。建设一个优秀的、实用的、符合自身内网信息整合的搜索引擎平台成为一种必然趋势。目前,通用的搜索引擎,如比较著名的百度、谷歌、搜狐等在Web信息检索一块已经做的很完善,但是并不能真正适用校园内部所有的情况和特定需要。通用的搜索引擎平台和校园内网搜索引擎平台在具体校园内部信息检索应用上差别分别在以下几方面:第一方面,通用的搜索引擎检索信息的对象为整个互联网,所以无法保证对校园内网信息全面的进行搜集和提取,并且通用搜索引擎一般采取“定期搜集”,从而导致更新周期过长,而结合学校自身特点,存在各部门信息更新频繁,故通用搜索引擎在针对校内信息搜集实时性和准确性很难得以保证。第二方面,结合学校特点,部分Web信息虽然在学校主页上有链接,但必须是校园网内部用户才能访问,如:只允许内网用户访问的内部网络办公系统,只允许内网用户下载的内部文件,内部网站等,由于针对外网用户保密等各方面的原因,受到校园网设置导致通用搜索引擎在进行爬取时无能为力。第三方面,通用搜索引擎大多以商业赢利为主要目的,针对用户的检索,所返回的结果难以到达绝对的公平性。开发本平台,对于用户检索的结果排序我们可以完全自由控制,可以满足实际需要。第四方面,校园网各部门网站大部分和学校主页进行了链接,但有部分内部信息系统、网站往往由于某些原因没有和学校主页进行链接,导致通用搜索引擎在进行原始网页、文件采集时对这部分网站上的信息没收集到,如果实现内部的搜索引擎可对这部分信息进行专门的采集。第五方面,教学科研方面的需要,搜索引擎现在已经成为人们的一项生活内容,市场上对这方面的人才是非常需要的,各大高校先后都开设了这方面的课程。本专利技术适合校园内部的搜索引擎平台,不仅可以满足功能需要,还可以为教学科研方面服务。
技术实现思路
本专利技术的目的是针对现有的技术存在的上述问题,提供一种分布式校园内网搜索系统,本专利技术所要解决的技术问题是构建一种搜索系统,用于实现网络爬虫子系统、信息预处理子系统、索引器子系统、查询器子系统,可以使得校园网用户检索信息方便、快捷。本专利技术的目的可通过下列技术方案来实现:一种分布式校园内网搜索系统,其特征在于,采用Java的相关技术,套接字类,URL类,中文字符处理,多线程机制,Hibernate框架包,Hadoop框架,Dubbo框架包,Struts2框架包,Spring框架包,Lucene工具包,Heritrix框架包,Nutch框架包、采用垂直应用架构以及SOA服务化架构实现的内网搜索引擎应用;具体而言,本分布式校园内网搜索系统包括四个子系统,分别是:网络爬虫子系统:对于校内校园网信息的原始收集,能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取,能够对不同格式的文件尽可能的全部下载;信息预处理子系统:从扩展名为html的网页文件中提取出有用的文本信息,过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息;索引子系统:能够理解网络爬虫子系统所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘;查询器子系统:获取用户通过浏览器传送过来的输入关键字,对索引库进行检索,匹配查询索引项,并对查询的结果按照重要度进行排序,返回给用户浏览器端。进一步的,网络爬虫子系统:采用开源项目Heritrix对校园网内相关信息资源进行抓取,并可进行灵活的二次开发,不同的功能采用不同的组件进行实现,灵活的修改代码之后可扩展网络爬虫的功能。抓取任务CrawlOrder组件CrawlOrder是整个抓取工作的起点,在一次抓取过程中包含多种属性。按照规则决定具体的URL进入处理队列的范围部件、处理已被搜集或者准备进行搜集的URL的边界部件、对于若干处理程序获取的URL进行分析,并通知给边界部件的处理器链部件。所采用的算法特性:在多个站点之间采用递归算法反复进行信息的抓取;对于种子站点主要采用广度优先算法获取二级站点和主机的精确信息;采用多线程的工作方式,线程数量灵活可调,可灵活设置下载的最大字节,文档数量以及下载时间。信息预处理子系统:提取文档中的文本内容一般分为两类:一种是从HTML文件中提取纯文本,另一种是从非HTML文件中提取纯文本。从HTML文件中提取纯文本需要相关的HTML内容解析器,从非HTML中提取纯文本方法比较复杂,其中Word、Excel、rtf、powerpoint格式都来自于微软公司,可以借助相关的开源项目提取这些文件中的纯文本内容。PDF是Adobe公司的电子文件格式,这种文件格式是跨平台的。PDFBox(一个BSD许可下的源码开放项目)是一个为开发人员读取和创建PDF文档而准备的纯Java类库。从HTML文件中提取纯文本信息采用是目前全球最大开源软件平台(http://sourceforge.net)上非常活跃的一个开源项目HtmlParser,本身用Java语言编写,用于对Html代码进行解析,以及Html网页的转换(Transformation)和网页内容的抽取(Extraction)。HtmlParser可以将网页中的各种标签转换成一个个串联的结点,并能从中获取结点的各项属性和信息。目前HtmlParser组件相比其它的网页解析组件设计上更加简洁,经过严格的测试表明该组件在程序运行的效率和处理网页的能力等方面也明显由于其它网页解析组件。对于网页信息在网页中文本内容一般会在<div>、<td>、<title>、<ahref=></a>、<p>等标签中,从HTML文件中提取纯文本信息就是提取出这些有用的文本信息,保存起来,为本专利技术建立索引所用。因此,在进行网页预处理器设计时对网页源代码里面的标签首先要进行判别,然后再有选择的进行文本抽取。HtmlParser将网页中的各种标签转换成一个个串联的Node,Node大致有三类:注释节点、标签节点、文本节点。在本专利技术中,对相关的数据和操作进行封装;用来封装原始网页处理之后的网页模型类,用来分析处理原始网页,提取有用文本信息的解析器类,保存模型对象于文件中的存储类,为避免处理后的文件重名而进行文件重新命名的MD5摘要计算类,以及读取原始网页信息。由于HTML的语法没有XML严格,简单使用Java基础类中的Patte本文档来自技高网
...

【技术保护点】
1.一种分布式校园内网搜索系统,其特征在于,包括网络爬虫子系统、信息预处理子系统、索引子系统和查询器子系统,其中,网络爬虫子系统对校内校园网信息进行原始收集,能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取,能够对不同格式的文件尽可能的全部下载;/n信息预处理子系统能够从扩展名为html的网页文件中提取出有用的文本信息,过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息;/n索引子系统能够理解网络爬虫子系统所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘;/n查询器子系统能够获取用户通过浏览器传送过来的输入关键字,对索引库进行检索,匹配查询索引项,并对查询的结果按照重要度进行排序,返回给用户浏览器端。/n

【技术特征摘要】
1.一种分布式校园内网搜索系统,其特征在于,包括网络爬虫子系统、信息预处理子系统、索引子系统和查询器子系统,其中,网络爬虫子系统对校内校园网信息进行原始收集,能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取,能够对不同格式的文件尽可能的全部下载;
信息预处理子系统能够从扩展名为html的网页文件中提取出有用的文本信息,过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息;
索引子系统能够理解网络爬虫子系统所搜集的各种文档信息,提取相关网页以及文档信息,包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等,并采用相关度算法进行计算,得到网页和文档针对其内容和超级链接的相关度或重要性等级,然后根据这些信息建立索引并持久化到硬盘;
查询器子系统能够获取用户通过浏览器传送过来的输入关键字,对索引库进行检索,匹配查询索引项,并对查询的结果按照重要度进行排序,返回给用户浏览器端。


2.根据权利要求1所述一种分布式校园内网搜索系统,其特征在于,所述网络爬虫子系统采用开源项目Heritrix对校园网内相关信息资源进行抓取,并可进行灵活的二次开发,不同的功能采用不同的组件进行实现,灵活的修改代码之后可扩展网络爬虫的功能;抓取任务CrawlOrder组件CrawlOrder是整个抓取工作的起点,在一次抓取过程中包含多种属性;
按照规则决定具体的URL进入处理队列的范围部件、处理已被搜集或者准备进行...

【专利技术属性】
技术研发人员:鲁屹华
申请(专利权)人:湖北科技学院
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1