当前位置: 首页 > 专利查询>湖北大学专利>正文

一种维基百科概念依赖关系识别方法技术

技术编号:27975685 阅读:49 留言:0更新日期:2021-04-06 14:09
本发明专利技术提供了一种维基百科概念依赖关系识别方法,包括如下步骤:由至少两个的基分类器组成Bagging分类器,并由至少两个Bagging分类器组成的Boosting分类器;用Boosting分类器对数据集进行训练:样本经过所有的Bagging分类器后,得到最终的分类结果;输入测试样本,Boosting分类器预测当前样本概念对间的依赖关系;本发明专利技术的方法,同时结合Bagging和Boosting两种集成技术的优点来预测维基百科概念之间的依赖关系,将AdaBoost算法当中的基分类器换成基于Bagging的集成学习分类器,这样AdaBoost既能发挥自己在权值分配上的优势,还能结合Bagging算法在样例选择上具有随机独立的特点,分类结果更为准确。

【技术实现步骤摘要】
一种维基百科概念依赖关系识别方法
本专利技术涉及智能分类领域,尤其涉及一种维基百科概念依赖关系识别方法。
技术介绍
随着网络时代地不断发展,在线教育资源例如在线课程、视频和文档等数量呈现出快速增长的趋势,但是这些资源往往是由不同人创建而成,因此其中的学习顺序关系很难确定,对于自学者而言面对如此繁杂的资料也将无从下手。为了解决该问题,我们将目光集中于基于教育资源的概念图谱(ConceptGraphLearning,CGL)中来。一个维基百科概念图包含从相同课程而来的概念集合,集合中维基百科概念对的边就代表相互之间的依赖关系。例如“二叉搜索树”(binarysearchtree)就是“红黑树”(red-blacktree)的依赖,换言之就是学习者在理解“红黑树”相关知识的时候,需要学习“二叉搜索树”作为预备知识。因此,概念之间的依赖关系作为维基百科概念图谱的重要组成部分,可以决定网络中教育资源的合理学习顺序。在以往地研究中,通常使用单个算法或者学习器或者是由单一类型算法组成的集成学习对维基百科概念间的依赖关系进行研究。<br>例如随机森林作本文档来自技高网...

【技术保护点】
1.一种维基百科概念依赖关系识别方法,其特征在于,包括如下步骤:/n由至少两个的基分类器组成Bagging分类器,并由至少两个Bagging分类器组成的Boosting分类器;/n用Boosting分类器对数据集进行训练:/n前一个Bagging分类器对所有样本完成预测,前一个Bagging分类器获取全部的样本数据后,其中的每个基分类器从样本中放回式采样,然后进行训练;/n后一个Bagging分类器观察前一个分类器,当所有样本输入到第二个分类器后,把所有的样本加上权值,并将前一个Bagging分类器预测错误的样本分配的权值大于预测正确的样本分配的权值;/n样本经过所有的Bagging分类器后,...

【技术特征摘要】
1.一种维基百科概念依赖关系识别方法,其特征在于,包括如下步骤:
由至少两个的基分类器组成Bagging分类器,并由至少两个Bagging分类器组成的Boosting分类器;
用Boosting分类器对数据集进行训练:
前一个Bagging分类器对所有样本完成预测,前一个Bagging分类器获取全部的样本数据后,其中的每个基分类器从样本中放回式采样,然后进行训练;
后一个Bagging分类器观察前一个分类器,当所有样本输入到第二个分类器后,把所有的样本加上权值,并将前一个Bagging分类器预测错误的样本分配的权值大于预测正确的样本分配的权值;
样本经过所有的Bagging分类器后,得到最终的分类结果;
输入测试样本,Boosting分类器预测当前样本概念对间的依赖关系。


2.根据权利要求1所述的一种维基百科概念依赖关系识别方法,其特征在于,所述至少两个以上的基分类器包括:随机森林、支持向量机、决策树、朴素贝叶斯,随机梯度下降。


3.根据权利要求1所述的一种维基百科概念依赖关系识别方法,其特征在于,所述由至少两个Bagging分类器组成的Boosting分类器,具体为:
至少两个Bagging分类器以串行方式排列组成Boosting分类器。


4.根据权利要求1所述的一种维基百科概念依赖关系识别方法,其特征在于,所述后一个Bagging分类器观察前一个分类器,当所有样本输入到第二个分类器后,把所有的样本加上权值,并将前一个Bagging分类器预测错误的样本分配的权值大于预测正确的样本分配的权值,具体包括:
初始化每个样本的权重;
计算采样的概率重分布,并根据计算出来的所述概率重分布进行样例重分布并进行分类预测;
计算分类预测的错误率
根据错误率来重新调整样例权重。


5.根据权利要求4所述的一种维基百科概念依赖关系识别方法,其特征在于,所述计算采样的概率重分布,具体为:



其中1≤i≤N,N为样本个数,1≤t≤T,T为迭代次数,为样本权值。


6.根据权利要求4所述的一种维基百科概念依赖关系识别方法,其特征在于,所述计算分类预测的错误率,具体为:



其中P为样本x的真实标记不等于分类器对样本X的预...

【专利技术属性】
技术研发人员:肖奎王时绘娄园园周洋
申请(专利权)人:湖北大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1