一种分布式校园内网搜索系统技术方案

技术编号：25599168 阅读：24 留言：0更新日期：2020-09-11 23:56

本发明专利技术提供了一种分布式校园内网搜索系统，属于计算机技术领域。通过对在范围内获取的网页信息和文本信息进行处理，使其形成纯文本，并以此构建一种搜索系统，用于实现网络爬虫子系统、信息预处理子系统、索引器子系统、查询器子系统，可以使得校园网用户检索信息方便、快捷。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式校园内网搜索系统
本专利技术属于计算机
，涉及一种分布式校园内网搜索系统。
技术介绍
随着目前高校校园网的不断发展，各所高校越来越重视数字化建设，并迅速步入了信息化高速发展的阶段。随着校园网的不断完善，这就要求给广大师生提供一个良好的信息化教学、科研和管理平台。目前，各所高校对数字化校园建设非常重视，如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。建设一个优秀的、实用的、符合自身内网信息整合的搜索引擎平台成为一种必然趋势。目前，通用的搜索引擎，如比较著名的百度、谷歌、搜狐等在Web信息检索一块已经做的很完善，但是并不能真正适用校园内部所有的情况和特定需要。通用的搜索引擎平台和校园内网搜索引擎平台在具体校园内部信息检索应用上差别分别在以下几方面：第一方面，通用的搜索引擎检索信息的对象为整个互联网，所以无法保证对校园内网信息全面的进行搜集和提取，并且通用搜索引擎一般采取“定期搜集”，从而导致更新周期过长，而结合学校自身特点，存在各部门信息更新频繁，故通用搜索引擎在针对校内信息搜集实时性和准确性很难得以保证。第二方面，结合学校特点，部分Web信息虽然在学校主页上有链接，但必须是校园网内部用户才能访问，如：只允许内网用户访问的内部网络办公系统，只允许内网用户下载的内部文件，内部网站等，由于针对外网用户保密等各方面的原因，受到校园网设置导致通用搜索引擎在进行爬取时无能为力。第三方面，通用搜索引擎大多以商业赢利为主要目的，针对用户的检索，所返回的结果难以到达绝...

【技术保护点】
1.一种分布式校园内网搜索系统，其特征在于，包括网络爬虫子系统、信息预处理子系统、索引子系统和查询器子系统，其中，网络爬虫子系统对校内校园网信息进行原始收集，能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取，能够对不同格式的文件尽可能的全部下载；/n信息预处理子系统能够从扩展名为html的网页文件中提取出有用的文本信息，过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息；/n索引子系统能够理解网络爬虫子系统所搜集的各种文档信息，提取相关网页以及文档信息，包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等，并采用相关度算法进行计算，得到网页和文档针对其内容和超级链接的相关度或重要性等级，然后根据这些信息建立索引并持久化到硬盘；/n查询器子系统能够获取用户通过浏览器传送过来的输入关键字，对索引库进行检索，匹配查询索引项，并对查询的结果按照重要度进行排序，返回给用户浏览器端。/n

【技术特征摘要】
1.一种分布式校园内网搜索系统，其特征在于，包括网络爬虫子系统、信息预处理子系统、索引子系统和查询器子系统，其中，网络爬虫子系统对校内校园网信息进行原始收集，能够对所有的静态、动态格式文件能够进行随时、及时、效率更高的爬取，能够对不同格式的文件尽可能的全部下载；
信息预处理子系统能够从扩展名为html的网页文件中提取出有用的文本信息，过滤掉广告信息以及导航栏或者网页底部的企业、公司、单位介绍等噪声信息；
索引子系统能够理解网络爬虫子系统所搜集的各种文档信息，提取相关网页以及文档信息，包括网页和文档所在的URL地址、编码格式类型、网页和文档的主要内容、生成时间、文件大小等等，并采用相关度算法进行计算，得到网页和文档针对其内容和超级链接的相关度或重要性等级，然后根据这些信息建立索引并持久化到硬盘；
查询器子系统能够获取用户通过浏览器传送过来的输入关键字，对索引库进行检索，匹配查询索引项，并对查询的结果按照重要度进行排序，返回给用户浏览器端。

2.根据权利要求1所述一种分布式校园内网搜索系统，其特征在于，所述网络爬虫子系统采用开源项目Heritrix对校园网内相关信息资源进行抓取，并可进行灵活的二次开发，不同的功能采用不同的组件进行实现，灵活的修改代码之后可扩展网络爬虫的功能；抓取任务CrawlOrder组件CrawlOrder是整个抓取工作的起点，在一次抓取过程中包含多种属性；
按照规则决定具体的URL进入处理队列的范围部件、处理已被搜集或者准备进行...

【专利技术属性】
技术研发人员：鲁屹华，
申请(专利权)人：湖北科技学院，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人