开源软件主题自动标注方法技术

技术编号：7935457 阅读：159 留言：0更新日期：2012-11-01 05:14

一种开源软件主题自动标注方法，包括：获取开源项目数据，将项目标签转换为其词根后将相同词根的标签合并，将项目描述转换为单词包；以开源项目的名称、标签和项目描述作为输入，应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数，生成单词到标签指派；根据生成的单词到标签指派构建标签网络，计算点的语义距离和语义内聚度；根据构建的标签网络对新项目进行自动标注，输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li，在每个Li中挑选一个标签1i，使语义内聚度Cohesion(L)最大，将满足条件的标签自动标注到新项目中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，特别是通过构建开源项目标签网络模型来对未知软件自动添加标签的方法。
技术介绍
开源软件(OSS)在软件工程领域扮演者越来越重要的角色。在众多开源社区中已有成千上万个开源软件项目，部分巨型社区如sourceforge. net和googlecode含有海量的开源项目。其中含有关于开源项目的多种数据，对帮助软件工程领域的研究有着重大作用。随着开源项目数据的迅速累积，对项目工程师来说迅速找到所需开源项目的问题变得复杂。然而，针对项目概要的文本处理和标注技术能用于应对上述需求，这里的项目概要主要包括项目描述、项目层次化分类和社会化标签等信息。举例来说，现在每个开源项目都有一段文字描述其功能和技术特征；在sourceforge中有363个软件类别，而freshmeat社区中有6000多个软件标签。这些标签数据在一方面能体现功能或技术特性，从而非常有助于了解某个特定软件；在另一方面，这些标签有效地索引和组织了大量的软件，为方便的浏览和搜索提供了帮助。应该说标签从用户角度反应了开源软件的语义关联，因此有助于构建项目间的内在联系，对组织和理解海量的项目有重要意义。综上，通过挖掘项目文本概述来揭露和构建这种标签信息网络将会对海量项目的挖掘与分析带来很大帮助。潜式狄利克雷分布(Latent Dirichlet Allocation,缩写为LDA)在文本处理和主题挖掘领域被作为统计模型广泛使用。在开源软件领域，LDA被用来发现源代码或漏洞报告的主题演化。S. Kawaguchi和K. Tian等人提出了使用基于LDA的源代码分析方法来对软件进行自动归类。...

【技术保护点】
一种开源软件主题自动标注方法，包括下列步骤：步骤1、爬取开源社区，获取开源项目数据，所述项目数据包括开源项目名称、标签和项目描述，对所述项目描述和项目标签进行预处理，所述预处理包括：将所述项目标签转换为其词根后将相同词根的标签合并，删除标签数小于预定数目的项目，将项目描述转换为单词包；步骤2、以开源项目的名称、标签和项目描述作为输入，应用带标注LDA模型，通过吉布斯抽样过程对输入数据进行训练，稳定后获得项目描述中某单词所指派的所有标签及计数，生成单词到标签指派，建立单词与标签之间的映射；步骤3、根据生成的单词到标签指派构建标签网络，并计算其中节点的语义距离和语义内聚度；步骤4、根据构建的标签网络对新项目进行自动标注，输入任意一个项目p的名称及其描述，对描述中每一个词在标签网络中查找，得到描述中每个不同单词i各自的标签集合Li，在每个Li中挑选一个标签1i，使语义内聚度Cohesion(L)最大，其中L＝{11，12，13，...，1i，...，1n}，将满足条件的标签自动标注到新项目中。

【技术特征摘要】

【专利技术属性】
技术研发人员：王怀民，尹刚，王涛，李翔，朱沿旭，史殿习，丁博，刘惠，滕猛，袁霖，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人