一种基于神经网络分类的软件信息站点快速标签推荐方法技术

技术编号：20546005 阅读：30 留言：0更新日期：2019-03-09 18:56

本发明专利技术涉及一种基于神经网络分类的软件信息站点快速标签推荐方法，具体是涉及对软件信息站点中的问题数据集先进行数据预处理，再通过建立词典生成句向量。在输入层中，提取句向量中用于表示软件元素的文本描述的n个n元特征。在隐藏层中，这些n元特征被转换为另一种表示方法并被平均以形成隐藏变量。最后，我们使用softmax函数来计算现有标签上的概率分布是一种基于神经网络分类的软件信息站点快速标签推荐方法，具有如下突出特点和优点：第一、构建一个基于单隐层神经网络的合适的框架；第二、利用文本等级约束来实现准确性和效率；第三、利用特征间的共享参数，避免大标签输出空间的局限性。

A Fast Label Recommendation Method for Software Information Sites Based on Neural Network Classification

The invention relates to a fast label recommendation method for software information sites based on neural network classification, in particular to data preprocessing for problem data sets in software information sites, and then sentence vectors are generated by establishing dictionaries. In the input layer, n N-element features are extracted from sentence vectors to represent the text description of software elements. In the hidden layer, these n-ary features are transformed into another representation and averaged to form hidden variables. Finally, we use the software Max function to calculate the probability distribution on the existing labels, which is a fast label recommendation method for software information sites based on neural network classification. It has the following outstanding characteristics and advantages: first, to construct an appropriate framework based on single hidden layer neural network; second, to achieve accuracy and efficiency by using text hierarchical constraints; third, to use features between. Share parameters to avoid the limitation of large label output space.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络分类的软件信息站点快速标签推荐方法
本专利技术涉及一种对软件信息站点的标签推荐方法，具体是涉及对软件信息站点中的问题数据集先进行数据预处理，再通过建立词典生成句向量。在输入层中，提取句向量中用于表示软件元素的文本描述的n个n元特征。在隐藏层中，这些n元特征被转换为另一种表示方法并被平均以形成隐藏变量。最后，我们使用softmax函数来计算现有标签上的概率分布是一种基于神经网络分类的软件信息站点快速标签推荐方法。
技术介绍
随着互联网的快速发展，越来越多的IT爱好者在互联网上寻求帮助，分享经验，以及学习新技术知识，由此出现了各种软件信息站点，像StackOverflow和Freeecode这样的软件信息站点可以为全世界的开发者提供信息共享和交流。为了便于正确的分类和高效的搜索，开发者需要为他们的发布提供标签。然而，标签本质上是一个不协调的过程，不仅取决于开发者对自己帖子的理解，还取决于其他因素，包括开发者的英语技能和对现有帖子的了解。因此，即使现有的标签已经足够，开发者也不断创建新的标签。最终的效果是，随着时间的推移，越来越多的标签具有严重的冗余性，并有更多的新标签发布，从而导致任何基于标签的算法效率和准确性都会降低。目前国内外针对软件信息站点的标签推荐，有基于模糊集合理论，考虑了系统的动态演化的标签推荐方法，有包含多标签排名组件，基于相似度的排名组件和基于标签项的排名组件的标签推荐方法，还有基于贝叶斯推理组件和频率推理组件的标签推荐方法。上述基于模糊集合理论和相似度排名及贝叶斯推理的方法存在以下不足：(1)它们应用限制在相对较小的数据集中；...

【技术保护点】
1.一种基于神经网络分类的软件信息站点快速标签推荐方法，其特征在于：包括以下步骤：步骤1、使用scrapy框架从软件信息站点上获取问题数据集和标签集；步骤2、对每条问题数据进行数据清洗，去除问题中的标点符号，多余空格和代码，只留下单词，并将单词全部转化为小写，得到清洗后的数据集data；步骤3、将数据集data分为规模为n的训练集train和规模为的m测试集test；步骤4、对训练集train建立词典D：步骤5、标签集大小为s_tag，trainj建立长度为s_tag的向量tagj，将tagj中trainj的标签在标签集中的对应位置的元素置1，其余元素置0；步骤6、构建输入层：给定trainj文本描述，快速标签推荐方法构造n‑gram特征(f1，...，fN)；对于每个n元特征fi，特征向量fti可以通过使用查找表TL获得；借助于权重矩阵A的共享参数，最终获得用于表示输入层中的文本描述的ngram特征向量(x1，...，xN)；步骤7、构建隐藏层：在隐藏层中，计算n‑gram特征向量(x1，...，xN)的平均值以使用以下等式获得隐藏变量Xh：

【技术特征摘要】
1.一种基于神经网络分类的软件信息站点快速标签推荐方法，其特征在于：包括以下步骤：步骤1、使用scrapy框架从软件信息站点上获取问题数据集和标签集；步骤2、对每条问题数据进行数据清洗，去除问题中的标点符号，多余空格和代码，只留下单词，并将单词全部转化为小写，得到清洗后的数据集data；步骤3、将数据集data分为规模为n的训练集train和规模为的m测试集test；步骤4、对训练集train建立词典D：步骤5、标签集大小为s_tag，trainj建立长度为s_tag的向量tagj，将tagj中trainj的标签在标签集中的对应位置的元素置1，其余元素置0；步骤6、构建输入层：给定trainj文本描述，快速标签推荐方法构造n-gram特征(f1，...，fN)；对于每个n元特征fi，特征向量fti可以通过使用查找表TL获得；借助于权重矩阵A的共享参数，最终获得用于表示输入层中的文本描述的ngram特征向量(x1，...，xN)；步骤7、构建隐藏层：在隐藏层中，计算n-gram特征向量(x1，...，xN)的平均值以使用以下等式获得隐藏变量Xh：Xh用于表示隐藏层中的文本描述；步骤8:构造输出层：输出层对应于二叉树；叶节点表示软件信息站点中的标签；叶节点的权重代表其标签的频率；叶节点数为k，非叶节点数为(k-1)；步骤9、对训练集T进行多轮迭代神经网络训练；步骤10、利用测试集对模型进行测试，计算召回率准确率和F1-scorel来检验模型的效果，调整参数，重复步骤9直到得一个合适的神经网络模型。2.根据权利要求1所述的一种基于神经网络分类的软件信息站点快速标签推荐方法，其特征在于：所述步骤4具体包括：步骤4a、建立字典变量dict；步骤4b、对于train中的每个词Wi来说，如果Wi没有出现在dict中，则将键值对{Wi：1}加入dict，如果Wi在dict中已存在，则对D中的Wi的值进行更新：{Wi：w+1}；步骤4c、对dict中的词dicti进行编号得到词典D。3.根据权利要求1所述的一种基于神经网络分类的软件信息站点快速标签推荐方法，其特征在于：所述步骤6具体包括：步骤6a、本方法使用n-gram作为附加功能来捕获关于本地词序的部分信息；首先构造查找表TL以存储n-gram的m维特征向量；查找表的大小理论上是|D|n，其中|D|是词典D的大小；步骤6b、扫描软件信息站点，并且对软件信息站点中出现的所有n-gram元素，在TL中被分配了一个m维特征向量；对于TL中的每个n-gram，随机地初始化m维特征向量并且可以由index(n-gram)＝hashcode(n-gram)定位一个n-gram；本方法步骤6c、构造一个共享权重矩阵A；n-gram特征fi的特征向量xi可以通过以下等式获...

【专利技术属性】
技术研发人员：刘进，周平义，储玮，崔晓晖，李兵，陈旭，施泽洋，彭新宇，赵发凯，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人