一种大规模开源软件标签层次自动构建方法技术

技术编号：12988555 阅读：68 留言：0更新日期：2016-03-09 20:41

一种开源软件标签层次自动化构建方法，包括利用已有的抽取工具将项目标签信息抽取出来，抽取得到的项目标签任意两两之间匹配，形成若干个无向标签对，然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次，并根据标签频次关系为标签对加上方向，形成<标签对，频次>边；将有向边相互连接起来就可以形成若干个连通图而得到初步构建的标签层次；获取站点已有分类层次，进行边的比较，对已有分类层次进行优化。具有对开源社区中大规模开源资源进行层次化组织，提高开源软件定位准确性和效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种标签层次自动化构建方法，尤其涉及针对由于互联网上存在大量的开源软件而带来的检索困难问题而提供的开源软件的标签层次自动化构建方法。
技术介绍
近年来，随着开源运动的蓬勃发展，大量的开源软件源源不断地融入到各个开源社区(Github，Sourceforge，Openhub等)中，带来了丰富的可重用软件资源，但同时也为资源检索带来了挑战。为了更好地管理如此庞大数量的开源软件，一些社区引入了标签系统，鼓励用户对开源软件进行标注，其中一些社区更是使用了自由的标签系统，允许用户给软件打标签，有些项目可能达到数十个标签。这种标签机制一方面可能会导致标签质量的下降，但是也大大丰富了标签数据，能够从不同的角度对软件进行全面描述。这些社区借助标签实现了对软件的分类，一定程度上缓解了大规模资源检索的问题。但是由于标签本身的局限性，形成的结构趋于扁平化，没有充分考虑标签之间的关联性，导致基于标签的资源定位效果不理想。如果能够将标签间关系纳入考虑，建立标签层次，将大大提高资源定位的准确性和效率。目前，构建软件标签层次的方法主要分为两种:人工方法和自动化方法。人工方式(Sourceforge) 一般是通过聘请领域专家，利用他们的领域知识，分析、研究、综合处软件标签的层次结构，但是这种方式需要消耗大量的人力、物力。自动化的方式通常利用开源软件的标签进行构建，一般的方法是首先需要度量两个标签标签间的关系；然后依据标签间的关系构建成软件分类层次。一般来说，度量标签间关系方式有两种:广义度和相似度。广义度表示的是在类别层次上，每个标签的通用程度，广义度值越大的标签...

【技术保护点】
一种开源软件标签层次自动化构建方法，包括下列步骤：步骤101、利用通用的爬虫技术抓取开源社区的项目信息页面，并利用已有的抽取工具将项目标签信息抽取出来，每一个项目页面可以形成一条字段为＜项目名，标签集合＞的记录，其中标签集合可以用＜标签1＞＜标签2＞…＜标签n＞格式存储，其中n大于等于1，形成一系列项目标签记录，存储到本地数据库A中；步骤102、对本地数据库A中的每一条记录做如下操作：标签集合中的项目标签任意两两之间匹配，形成若干个无向标签对，然后统计出根据所有记录计算出的标签对信息计算出的标签对出现频次，形成＜标签对，频次＞关系。同时统计出所有标签的出现频次，作为标签广义度度量；步骤103、将＜标签对，频次＞关系按频次进行降序排列，取前N(N大于等于1，其决定层次结构的大小)个关系中的标签对作为层次结构中的边，然后根据标签广义度为这些选中的边加上方向，由广义度大的标签指向广义度小的标签；步骤104、形成的若干条有向边是若干个连通图的边表示法，将这些边相互连接起来就可以形成若干个连通图，这样连接形成的图都保留，据此，构建出初步的软件标签分类层次结构；步骤105、根据已有的标签分类层次对...

【技术特征摘要】

【专利技术属性】
技术研发人员：王怀民，王涛，尹刚，谷崇明，杨程，史殿习，刘惠，丁博，史佩昌，刘步权，湛云，侯翔，李翔，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人