开源软件获取与搜索系统的实现方法技术方案

技术编号：7935459 阅读：190 留言：0更新日期：2012-11-01 05:14

一种开源软件获取与搜索系统的实现方法，包括：在企业级服务器上配置关系数据库管理软件，使得上层应用程序对关系数据库进行调用时能使业务层代码能够以对象的方式访问和更新数据库里的信息；接收用户的输入定义，确定一定数目的已知URL地址的开源社区集合，通过爬虫抓取开源社区中的开源软件主页；从爬取到的页面中抽取开源软件领域的信息即开源属性；对跨社区项目信息进行整合，当来自不同社区的项目具有不同的属性时，取属性并集，同时保存不同项目之间的依赖关系；对获取的开源属性建立倒排索引；响应于用户搜索输入或预定义的排名机制，对需要展现的开源项目进行排序并显示，从而实现对开源软件项目的获取与搜索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，特别是在跨多个开源社区的环境下，一种基于定向网络爬虫、信息抽取的开源软件搜索系统的构造方法。
技术介绍
近年来，国内外开源软件运动取得了蓬勃发展，已经形成众多拥有大量开发人员、开源项目和开源社区的软件开发和应用的开源软件生态系统。目前开源软件业界有如下发展趋势I.开源项目和开发人员数量庞大并逐年稳定增长；2.少数优秀的开源项目发展迅速并且得到广泛应用； 3.多数开源项目处于较低的发展水平且处于缓慢发展状态；这些特征使得从海量开源软件项目中发现和选择高质量且满足特定需求的开源软件成为急需解决问题。传统搜索引擎由于其缺乏针对性，搜索结果中有效信息含量不高，因此难以应对这样的需求。开源软件社区作为开源软件的托管平台，其页面有着丰富的开源项目描述信息，对于开源软件的共享、评价和选择具有重要价值。开源社区大多集成了针对社区内开源软件的搜索引擎和条件选择服务，然而要在全球范围内选择和查找开源软件，综合跨社区的软件信息，构建跨社区的开源软件搜索引擎势在必行。近年来，国内外针对跨社区的开源软件页面数据收集开展了大量的研究和实践。美国Syracuse大学的FLOSSmole项目在该领域做出了突出成绩。通过使用275个网络爬虫，该项目从20多个社区中爬取了近500，000个开源项目的页面数据。但由于该工作只进行了数据的搜集，对外仅提供sql查询接口和sql数据包的下载，而并没有提供数据的综合、展现、搜索等功能，因此并不能帮助人们搜索与获取软件。国内面向开源软件的搜索引擎研究还处于起步阶段，其中比较有影响力的包括开源中国社区、CSDN开源社区、中国Linu...

【技术保护点】
一种开源软件获取与搜索系统的实现方法，包括下列步骤：步骤1、搭建数据服务，在企业级服务器上配置关系数据库管理软件，搭建关系与对象映射框架，使得上层应用程序对关系数据库进行调用时能使业务层代码能够以对象的方式访问和更新数据库里的信息；步骤2、网页获取，接收用户的输入定义，确定一定数目的已知URL地址的开源社区集合，通过爬虫抓取开源社区中的开源软件主页，将开源项目的爬取分为开源项目列表页爬取和开源项目主页爬取两个阶段。步骤3、开源属性抽取，从爬取到的页面中抽取开源软件领域的信息即开源属性；步骤4、对跨社区项目信息进行整合，当来自不同社区的项目具有不同的属性时，取属性并集；同时保存不同项目之间的依赖关系；步骤5、对获取的开源属性建立倒排索引，其中的每一项都包括一个属性值和具有该属性值的各记录的地址，由属性值来确定记录的位置，而非由记录来确定属性值。步骤6、响应于用户搜索输入或预定义的排名机制，对需要展现的开源项目进行排序并显示。

【技术特征摘要】

【专利技术属性】
技术研发人员：王怀民，李翔，尹刚，朱沿旭，史殿习，王涛，袁霖，滕猛，刘惠，余跃，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人