基于网络爬虫的题库生成系统及应用方法技术方案

技术编号:27536957 阅读:61 留言:0更新日期:2021-03-03 11:25
本发明专利技术涉及一种基于网络爬虫的题库生成系统及其应用方法,该系统包括系统开发框架模块、数据库模块以及服务器,系统开发框架模块连接数据库模块,系统开发框架模块和数据库模块搭建在服务器上;系统开发框架模块内嵌套有爬虫模块、题库管理模块和智能组卷算法模块,三个模块各自分离又相互配合。本发明专利技术使用网络爬虫技术,遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,将各个地方的试题整合到数据库中,试题内容新颖,将各类试题进行分类并自动组卷,用户可以在线浏览,也可以通过传统的方法进行打印。本发明专利技术为教师量身定做,为教师教学提供支持,进一步提升教学质量。进一步提升教学质量。进一步提升教学质量。

【技术实现步骤摘要】
基于网络爬虫的题库生成系统及应用方法


[0001]本专利技术涉及一种题库生成系统及方法,特别涉及一种基于网络爬虫的题库生成系统及应用方法。

技术介绍

[0002]为了响应教育信息化的号召,许多高校推行利用计算机技术进行试题库管理和辅助教师组卷的改革。但是大部分还是采用教师手动自主命题的方式来生成试题,传统的方式浪费了教师大量的精力以及时间。在国内,目前也有一些比较成功的在线考试系统存在,如针对高等数学学科的题库系统MATBAS,南京大学成功发出来的主要针对PASCAL语言的题库系统和高教司的主要针对知识的组卷系统等,然而这些系统做的并不是非常智能,因为它们中的大部分系统都没有试卷自动生成功能,试题内容不够新颖,考试需要的试题和试卷仍需要人工完成。

技术实现思路

[0003]专利技术目的:
[0004]本专利技术提供了一种基于网络爬虫的题库生成系统及应用方法,其目的是解决现有题库系统不能自动生成试卷且试题内容不够新颖的问题。
[0005]技术方案:
[0006]一种基于网络爬虫的题库生成系统,该系统包括系统开发框架模块、数据库模块以及服务器,系统开发框架模块连接数据库模块,系统开发框架模块和数据库模块搭建在服务器上;
[0007]系统开发框架模块内嵌套有爬虫模块、题库管理模块和智能组卷算法模块,三个模块各自分离又相互配合;
[0008]爬虫模块用于抓取网页当中的试题内容,并通过管理员对试题内容进行初步标记将各类试题存储到源试题资源库模块中;
[0009]题库管理模块用于将爬虫模块动态搜集的网络习题资源按照知识点存储到试题资源库中,为智能组卷模块提供试题题源;
[0010]智能组卷算法模块用于以知识点为基础对试题进行碎片化管理,并在组卷时对试题进行筛选组成一套完整的试卷;
[0011]数据库模块包括源试题资源库模块和用户试题资源库模块;
[0012]源试题资源库模块用于存储初标记后的试题资源信息,该模块为任课教师创建试题资源库提供题源;
[0013]用户试题资源库模块用于存储用户自定义的课程信息、用户收录的试题资源以及用户已经生成的试卷资源。
[0014]服务器为Flask框架自带的WSGI服务器。
[0015]一种基于网络爬虫的题库生成系统的应用方法,包括以下步骤:
[0016]1)试题收集、更新:包括爬虫模块抓取的试题和用户编写的试题,将收集的试题存储至源试题资源库模块中;
[0017]2)创建提纲:将根据用户自身需求自定义课程大纲保存至用户试题资源库模块;
[0018]3)试题筛选:对用户试题资源库模块中抽取的试题,标记试题的分值和难易程度级别,并保存至用户试题资源库模块,重复的试题不进行保存;
[0019]4)试卷生成:智能组卷算法模块从用户试题资源库模块中保存的试题中抽取试题,组成试卷。
[0020]步骤1)中爬虫模块抓取URL爬取到网页中的试题资源,并对抓取的试题资源进行试题类型的标记,最后存储至源试题资源库模块中。
[0021]步骤4)智能组卷算法模块的智能组卷算法包括:
[0022]Step1通过对知识点和试题的分析,将每门课程内的试题进行量化,获得碎片化试题;
[0023]Step2通过对碎片化试题之间相互关联关系进行梳理,确定智能组卷的约束条件;
[0024]Step3采用弹性捜索引擎检索,并对不同的索引关键字添加权重,最后组卷。约束条件包括:
[0025]条件1:试卷中试题i的分数,n为试卷试题总数,试卷的分数要达到满分;
[0026]条件2:试卷中试题i的难度值,n为试卷试题总数,试卷的难度根据用户的要求确定;
[0027]条件3:试卷中试题i的曝光度<对应章节中对应题型的试题平均曝光度;
[0028]条件4:试题的近期被选过的标志位为false,保证相邻两次试卷所选试题的重复率低。
[0029]优点效果
[0030]本专利技术使用网络爬虫技术,遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,将各个地方的试题整合到数据库中,试题内容新颖,将各类试题进行分类并自动组卷,用户可以在线浏览,也可以通过传统的方法进行打印。本专利技术为教师量身定做,为教师教学提供支持,进一步提升教学质量。
附图说明
[0031]图1本专利技术系统功能设计图。
具体实施方式
[0032]以下结合说明书附图更详细的说明本专利技术。
[0033]本专利技术开发出一套可以通过爬取网络资源自动更新试题资源的Web试卷自动生成系统可以大大减轻授课教师的工作量,题库系统能自动生成试卷且试题内容新颖,并在一定程度上提高了组卷的效率,是一项很有意义的工作,同时也是现实的迫切需求。
[0034]基于网络爬虫的智能题库生成系统,可分为两个版本,版本一分为试题收集,试题
整理和组卷管理三大功能模块,其中试题收集模块实现了管理员手动添加试题实现数据库更新功能,试题整理模块实现了课程分类、题型分类、章节分类、难度分级、试题分值和试题曝光度六大功能,组卷管理模块实现了智能组卷、手工组卷和试卷设置三大功能;版本二在版本一的基础上添加了网络爬虫自动添加试题资源的功能,以此来提升试题资源更新的效率,解决试题内容不新颖的问题,具体的功能模块图如图1所示。数据库方面,本项目共设计了12个表,用于用户基本信息和试题资源信息的存储,具体的数据库总览表如表1所示。
[0035]表1数据库总览表
[0036][0037][0038]如图1所示,普通用户,以未登录状态浏览网站页面,本网站只提供在线资源查看功能,且只提供近期生成的10套试题资源;
[0039]创建提纲:用户可根据自身需求创建课程提纲,创建的过程为创建课程,创建课程章节,创建章节知识点;
[0040]试题筛选:用户可根据自身需求从源试题资源数据库中选出若干题目,并根据需要将筛选出的试题按照创建的提纲添加到用户自己的试题资源库中;
[0041]试卷生成:用户从自己的试题资源库中根据需求选择对应知识点下各类试题的数目,系统会根据曝光度、难易程度等因素筛选出最匹配的试题,并生成一套完整格式的试卷;
[0042]爬虫资源更新:管理员可以在后台填写URL,并选择所属课程,系统便会自动爬取该URL下对应页面的试题资源,并在内容展示栏中进行展示,管理对试题进行简单排版后,便可上传至数据库,对试题资源进行更新;
[0043]以上为本系统的主要功能,除此之外,本系统还大量使用了缓存等技术,以此来提高系统检索效率。
[0044]为实现上述功能,本专利技术采用以下技术方案:一种基于网络爬虫的题库生成系统,其特征在于:该系统包括系统开发框架模块、数据库模块以及服务器,系统开发框架模块连接数据库模块,系统开发框架模块和数据库模块搭建在服务器上;
[0045]系统开发框架模块内嵌套有爬虫模块、题库管理模块和智能组卷算法模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的题库生成系统,其特征在于:该系统包括系统开发框架模块、数据库模块以及服务器,系统开发框架模块连接数据库模块,系统开发框架模块和数据库模块搭建在服务器上;系统开发框架模块内嵌套有爬虫模块、题库管理模块和智能组卷算法模块,三个模块各自分离又相互配合;爬虫模块用于抓取网页当中的试题内容,并通过管理员对试题内容进行初步标记将各类试题存储到源试题资源库模块中;题库管理模块用于将爬虫模块动态搜集的网络习题资源按照知识点存储到试题资源库中,为智能组卷模块提供试题题源;智能组卷算法模块用于以知识点为基础对试题进行碎片化管理,并在组卷时对试题进行筛选组成一套完整的试卷;数据库模块包括源试题资源库模块和用户试题资源库模块;源试题资源库模块用于存储初标记后的试题资源信息,该模块为任课教师创建试题资源库提供题源;用户试题资源库模块用于存储用户自定义的课程信息、用户收录的试题资源以及用户已经生成的试卷资源。2.根据权利要求1所述的基于网络爬虫的题库生成系统,其特征在于:服务器为Flask框架自带的WSGI服务器。3.一种如权利要求1所述的基于网络爬虫的题库生成系统的应用方法,其特征在于:包括以下步骤:1)试题收集、更新:包括爬虫模块抓取的试题和用户编写的试题,将收集的试题存储至源试题资源库模块中;2) 创建提纲:将根据用户自身需求自定义课程大纲保存至用户试题资源库模块;3)试题...

【专利技术属性】
技术研发人员:盛纯烁刘海旭李威
申请(专利权)人:沈阳工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1