当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于信息检索的大规模软件信息站标签推荐方法技术

技术编号:16546811 阅读:97 留言:0更新日期:2017-11-11 11:39
本发明专利技术涉及一种基于信息检索的大规模软件信息站标签推荐方法,包括,步骤1:预处理生成软件对象集合;步骤2:为集合中对象创建索引。步骤3:计算相似得分,取得分高的软件对象构成候选集合;步骤4:计算标签得分,取得分高的推荐给开发者。本发明专利技术具有如下优点:1.本方法对规模不断增大的软件信息站自动推荐标签并缓和标签急剧增长的问题;2.本方法提出一个基于标签多分类算法,可以处理上百万的软件对象;3.本方法推荐更加准确;4.本发明专利技术创建的TagMulRec相比已经存在的EnTagRec等标签推荐方法具有更好的可扩展性和稳定性,速度上提了三个量级。

A tag recommendation method for large scale software information station based on Information Retrieval

The invention relates to a large-scale software based on information information retrieval station tag recommendation method, including 1 steps: preprocessing software objects; step 2: create index for the objects in the collection. Step 3: calculate the similarity score, get the high score of the software object to form a candidate set; step 4: calculate the tag score, get the recommendation of the high score to the developer. The invention has the following advantages: increasing the size of the software information station automatic recommendation label and ease the rapid growth of the 1. label of the method; 2. this method is put forward based on a multi label classification algorithm, the software object can handle millions; 3. of the recommended method is more accurate; the scalability and stability of the present invention 4. the creation of TagMulRec compared with the existing EnTagRec tag recommendation method has better speed, raised three orders of magnitude.

【技术实现步骤摘要】
一种基于信息检索的大规模软件信息站标签推荐方法
本专利技术属于软件工程
,适用于规模不断增大的大规模软件信息站,实现自动推荐标签,是可扩展的多标签推荐方法;具体涉及一种基于信息检索的大规模软件信息站标签推荐方法。
技术介绍
软件信息站为软件开发者查询解决方案,分享经验,提供帮助以及学习新的技术提供了不可或缺的平台。软件信息站包括在线开发者问答社区,例如StackOverflow,AskUbuntu,AskDifferent以及一些开源软件社区,例如Freecode,GitHub等。随着软件信息站的发展,软件对象的数目显著增长,导致软件开发者不知道如何定位一个特别的软件对象。为了解决这个问题,有一个典型的实践方法,那就是开发者在发布一个软件时对软件贴上一些标签,而且是社会媒体中常见的标签。由于标签通常由几个单词或者仅仅是单词缩写组成,他们提供了软件信息站上搜索,描述,识别,标签,分类以及组织软件对象的元数据。大多数软件信息站为了提高网站上不同操作的效率和准确性,依靠标签来对网站内容进行分类。从而标签的质量对于这些网站就显得尤为重要。高质量的标签通常是简约的并且可以直接描述软件对象本文档来自技高网...
一种基于信息检索的大规模软件信息站标签推荐方法

【技术保护点】
一种基于信息检索的大规模软件信息站标签推荐方法,其特征在于,包括以下步骤:步骤1:对软件信息站的软件对象数据进行预处理,移除不带标签的和标签频率低于预设定阈值的软件对象,最后移除这些软件对象描述中的停词,从而得到所有带标签和描述的软件对象集合;包括以下子步骤:步骤1.1:基于已经存在的标签,对软件信息站的软件对象,去除其中的不带标签项;步骤1.2:对于出现频率小于临界值threshold的标签,是拼写错误或者某一个特殊的领域导致,对于拼写错误的标签不得推荐给用户,而对于特殊领域的软件对象,由开发者自行创建标签;步骤2:为步骤1中的软件对象创建索引,保存对象描述中的词,称为词典,每个词都指向包含...

【技术特征摘要】
1.一种基于信息检索的大规模软件信息站标签推荐方法,其特征在于,包括以下步骤:步骤1:对软件信息站的软件对象数据进行预处理,移除不带标签的和标签频率低于预设定阈值的软件对象,最后移除这些软件对象描述中的停词,从而得到所有带标签和描述的软件对象集合;包括以下子步骤:步骤1.1:基于已经存在的标签,对软件信息站的软件对象,去除其中的不带标签项;步骤1.2:对于出现频率小于临界值threshold的标签,是拼写错误或者某一个特殊的领域导致,对于拼写错误的标签不得推荐给用户,而对于特殊领域的软件对象,由开发者自行创建标签;步骤2:为步骤1中的软件对象创建索引,保存对象描述中的词,称为词典,每个词都指向包含该词的文档链表,此文档链表称为倒排表;也就是对步骤1中集合内的软件对象创建索引,利用软件对象描述中的词创建词典,并且对于每个词,创建一个链表,链表的每一个节点存放描述中包含该词的软件对象的索引以及该词在节点对象中频数;步骤3:根据公式计算出给定的软件对象和步骤1集合中软件对象的相似得分,并取其中相似度最高的若干个软件对象构成候选集合,具体是通过公式计算软件对象与步骤1集合中的软件对象的相似得分;将软件对象o的描述看作一个查询项,计算出得分,该得分取决于软件对象o描述中的词同时也在软件对象oi描述中出现的频率,计算的公式如下:其中,...

【专利技术属性】
技术研发人员:周平义茅志仁刘进崔晓辉施泽洋彭新宇
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1