一种基于多标签分类卷积神经网络的题目推荐方法技术

技术编号:22330146 阅读:40 留言:0更新日期:2019-10-19 12:17
本发明专利技术涉及教育领域,更具体的,涉及一种基于多标签分类卷积神经网络的题目推荐方法,本发明专利技术突出训练集中的高相关标签间的相关性,将相关性高于一定阈值的标签对都视为高相关标签对,能够调整每个标签的不平衡率以及让模型更好的学习高相关性以提高分类的准确度,并且本发明专利技术的卷积神经网络可以自动提取题目关键词的特征,能够更好的帮助卷积神经网络对考点特征标签的分类,此外,本发明专利技术在卷积神经网络中的第一层全连接层中加入标签间的相关性信息,让模型在训练中考虑标签间的相关性,以提高效率、网络识别分类的准确度。

【技术实现步骤摘要】
一种基于多标签分类卷积神经网络的题目推荐方法
本专利技术涉及教育领域,更具体地,涉及一种基于多标签分类卷积神经网络的题目推荐方法。
技术介绍
随着计算机技术快速的发展,科技在教育领域中也得到了非常广泛的应用。其中,通过一道题目能够拓展找到另外一些类似的题目就显得尤其方便,例如,对于学生来说,对某种类型或某个考点的题目掌握不好,则他需要查找更多相似的题目来巩固、加强掌握这些题目;对于教师来说,试卷出题也是类似,考点固定,但题目是变化的,通过一道题目找到其它相同考点的题目,对于出卷老师来说是非常方便的事情。那么如何找到一道题目的其它类似题目,重点就在于,对一道题目进行考点信息的提取,考点提取就是指从题目信息中发现、识别最后提取出蕴含在信息中的概念、重点、规则关系的过程,从而改变传统的知识点考点的组织和管理方式。目前,考点抽取的模型支撑有粗糙集、遗传算法、神经网络、多标签分类、潜在语义标引等。在过去的研究中,多标签学习已经得到了广泛的关注并取得了一系列的进展,其中,如何学习和利用多个标签之前的依赖关系是目前被普遍认可和关注的一个关键问题,有效学习和利用这些依赖关系是提高多标签分类模型性能的关键,而目前的多标签学习方法中,但仍存在着效率以及准确率底下的不足。
技术实现思路
为了解决现有技术中多标签学习方法效率以及准确率底下的不足,本专利技术提供了一种基于多标签分类卷积神经网络的题目推荐方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于多标签分类卷积神经网络的题目推荐方法,包括以下步骤:步骤S1:获取若干题目以及考点集合作为样本实例,对每个题目的考点标签进行标注,将标注好的题目保存作为题库;步骤S2:获取题库中各个题目的一组关键词,训练出所有关键词的词向量;步骤S3:计算关于标签的局部相关性矩阵求得标签间的局部相关性,根据标签间的局部相关性,用寻找与匹配高相关标签对的方法增加训练集;步骤S4:构建一维卷积神经网络,一维卷积神经网络的输入层为一道题目的关键词的词向量,一维卷积神经网络的输出层为考点标签的预测值,将标签间的局部先关矩阵的有效元素作为神经元加入至一维卷积神经网络中的第一个全连接层,对一维卷积神经网络进行训练并选出最优模型;步骤S5:将新题目输入到最优模型的一维卷积神经网络中,输入考点标签的预测值,根据考点特征用聚类方法将所有题目进行分类,获得与该题目考点相似的其他题目,将其作为推荐题目。优选的,在步骤S1中,若一道题目包含某一考点,则将该样本实例对应的考点标签值设为1,否则设为0。优选的,根据权利要求2所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S2中,需要过滤题目的图片、停用词、标点符号,保留特殊符号、专业词汇,获得题目的一组关键词,把各个样本的长度增加到题目集中最多的关键词个数,空白位置用指定的字符填充,使样本的输入维度一致,并对每个关键词训练出其词向量。优选的,在步骤S3中,令lt和lz为任意两个考点标签,将lt和lz的局部相关性定义为:其中,n(lt∩lz)表示该两个标签都为1的题目个数,n(lt∪lz)表示两个标签中至少有一个值为1的题目个数,求出所有每两个标签的局部相关性,得到一个对角元素为1的对称矩阵C,标签与其自身的相关性是1,基于矩阵C再用寻找与匹配高相关标签对的方法增加训练集。优选的,寻找高相关标签对的方法包括以下步骤:设置一个局部相关性阈值g,对于每一个样本实例,列出标签值为1的所有标签,再两两配对,若标签对的两个标签局部相关性小于g,则淘汰该标签对;否则保留,并将其视为高相关标签对,这样每个样本都能对应0个到多个的高相关标签对。优选的,匹配高相关标签对的方法包括以下步骤:对于所有题库的每一个高相关标签对,遍历样本实例中所有的高相关标签对,寻找与其相同的标签对,若两个标签对匹配成功,令标签对都为(lu,lv),则选择它们各自所属的两个样本实例作为算术平均值以生成新的正类实例,该实例的lu和lv标签值都为1,将新实例加入到新训练集Dk中,最后将Dk和原样本实例集合并为总训练集。优选的,如果标签对匹配成功对应的两个实例的算术平均值实例已存在于Dk中,则直接将已存在的实例的对应标签置为1,不需要添加新训练样本。优选的,在步骤S4中,搭建一维卷积神经网络的具体步骤如下:输入层为一道题目的一组用词向量表示的关键词,一维卷积神经网络的channel数量为词向量大小,输出层激活函数为Sigmoid激活函数,代价函数采用经典的CrossEntropy函数,提取局部相关性矩阵的有效元素,有效元素为除去对角线和对称多余的部分剩余的元素,一个元素对应一个神经元加入到网络的第一层全连接层中,期望模型在学习预测中利用标签间的相关性。优选的,在步骤5中,利用基于密度的聚类,新题目与题库所有题目的考点标签特征作为数据集,分类为若干个簇,若有噪音点、异常点,则该题目没有任何与其相似的题目,将其各自作为一个簇。优选的,在步骤S5中,若输入的新题目已存在于题库中,则直接使用题库聚类的结果找出推荐题目;否则,先通过卷积神经网络预测出该题目的考点,再用聚类的方法寻找在题库中与新题目考点相似的题目,将其作为推荐题目,若新题目的考点特征在聚类时为噪音点,则无题目可推荐。与现有技术相比,本专利技术技术方案的有益效果是:1、本专利技术突出训练集中的高相关标签间的相关性,将相关性高于一定阈值的标签对都视为高相关标签对,能够调整每个标签的不平衡率以及让模型更好的学习高相关性以提高分类的准确度。2、本专利技术的卷积神经网络可以自动提取题目关键词的特征,能够更好的帮助卷积神经网络对考点特征标签的分类,此外,本专利技术在卷积神经网络中的第一层中加入标签间的相关性信息,让模型在训练中考虑标签间的相关性,以提高效率、网络识别分类的准确度。附图说明图1为本专利技术实施的总体流程图;图2为本专利技术的计算标签间的局部相关性的相关流程;图3为本专利技术用寻找与匹配高相关标签对的方法增加训练实例的相关流程;图4为本专利技术的一维卷积神经网络结构示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1、图2以及图3所示,一种基于多标签分类卷积神经网络的题目推荐方法,包括以下步骤:步骤S1:获取若干题目以及考点集合作为样本实例,对每个题目的考点标签进行标注,将标注好的题目保存作为题库;步骤S2:获取题库中各个题目的一组关键词,训练出所有关键词的词向量;步骤S3:计算关于标签的局部相关性矩阵求得标签间的局部相关性,根据标签间的局部相关性,用寻找与匹配高相关标签对的方法增加训练集;步骤S4:构建一维卷积神经网络,一维卷积神经网络的输入层为一道题目的关键词的词向量,一维卷积神经网络的输出层为考点标签的预测值,将标签间的局部先关矩阵的有效元素作为神经元加入至一维卷积神经网络中的第一个全连接层,对一维卷积神经网络进行训练并选出最优模型;步骤S5:将新题目输入到最优模型的一维卷积神经网络中,输入考点标签的预测值,根据考点特征用聚类方法本文档来自技高网...

【技术保护点】
1.一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,包括以下步骤:步骤S1:获取若干题目以及考点集合作为样本实例,对每个题目的考点标签进行标注,将标注好的题目保存作为题库;步骤S2:获取题库中各个题目的一组关键词,训练出所有关键词的词向量;步骤S3:计算关于标签的局部相关性矩阵求得标签间的局部相关性,根据标签间的局部相关性,用寻找与匹配高相关标签对的方法增加训练集;步骤S4:构建一维卷积神经网络,一维卷积神经网络的输入层为一道题目的关键词的词向量,一维卷积神经网络的输出层为考点标签的预测值,将标签间的局部先关矩阵的有效元素作为神经元加入至一维卷积神经网络中的第一个全连接层,对一维卷积神经网络进行训练并选出最优模型;步骤S5:将新题目输入到最优模型的一维卷积神经网络中,输入考点标签的预测值,根据考点特征用聚类方法将所有题目进行分类,获得与该题目考点相似的其他题目,将其作为推荐题目。

【技术特征摘要】
1.一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,包括以下步骤:步骤S1:获取若干题目以及考点集合作为样本实例,对每个题目的考点标签进行标注,将标注好的题目保存作为题库;步骤S2:获取题库中各个题目的一组关键词,训练出所有关键词的词向量;步骤S3:计算关于标签的局部相关性矩阵求得标签间的局部相关性,根据标签间的局部相关性,用寻找与匹配高相关标签对的方法增加训练集;步骤S4:构建一维卷积神经网络,一维卷积神经网络的输入层为一道题目的关键词的词向量,一维卷积神经网络的输出层为考点标签的预测值,将标签间的局部先关矩阵的有效元素作为神经元加入至一维卷积神经网络中的第一个全连接层,对一维卷积神经网络进行训练并选出最优模型;步骤S5:将新题目输入到最优模型的一维卷积神经网络中,输入考点标签的预测值,根据考点特征用聚类方法将所有题目进行分类,获得与该题目考点相似的其他题目,将其作为推荐题目。2.根据权利要求1所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S1中,若一道题目包含某一考点,则将该样本实例对应的考点标签值设为1,否则设为0。3.根据权利要求2所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S2中,需要过滤题目的图片、停用词、标点符号,保留特殊符号、专业词汇,获得题目的一组关键词,把各个样本的长度增加到题目集中最多的关键词个数,空白位置用指定的字符填充,使样本的输入维度一致,并对每个关键词训练出其词向量。4.根据权利要求3所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,在步骤S3中,令lt和lz为任意两个考点标签,将lt和lz的局部相关性定义为:其中,n(lt∩lz)表示该两个标签都为1的题目个数,n(lt∪lz)表示两个标签中至少有一个值为1的题目个数,求出所有每两个标签的局部相关性,得到一个对角元素为1的对称矩阵C,标签与其自身的相关性是1,基于矩阵C再用寻找与匹配高相关标签对的方法增加训练集。5.根据权利要求4所述的一种基于多标签分类卷积神经网络的题目推荐方法,其特征在于,寻找高相关标签对的方法包括以下步骤:设置一个局部相关性阈值g,对于每一个样本实例,列出标签...

【专利技术属性】
技术研发人员:袁锦杰蔡瑞初郝志峰温雯王丽娟陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1