【技术实现步骤摘要】
试题去重方法及其系统
本申请涉及教育
,特别涉及试题去重技术。
技术介绍
随着互联网信息技术的发展,在互联网平台可以获取到大量的试题资源,而这些试题资源中不免存在着大量的重复资源。因此,在试题资源库建设的过程中,首要解决的问题就是重复试题资源的甄别和去重存储。一种试题去重方法是在试题入库前将其与试题资源库中的所有试题进行内容相似度计算,根据内容相似度计算结果判断待入库试题是否重复,以达到去重的目的,这种试题去重方法计算量庞大且效率低。
技术实现思路
本申请的目的在于提供一种试题去重方法及其系统,能够减小系统计算量,提高试题去重效率。本申请公开了一种试题去重方法,包括:获取目标试题;确定所述目标试题的题型和涉及的知识点集合;根据所述题型和所述知识点集合按照预设编码规则生成该目标试题的特征编码,并从试题资源库中获取具有所述特征编码的各试题,如果该目标试题与所述各试题中任一试题的内容相似度大于预设阈值,则判定该目标试题为重复试题并删除,否则保存该目标试题及其特征编码 ...
【技术保护点】
1.一种试题去重方法,其特征在于,包括:/n获取目标试题;/n确定所述目标试题的题型和涉及的知识点集合;/n根据所述题型和所述知识点集合按照预设编码规则生成该目标试题的特征编码,并从试题资源库中获取具有所述特征编码的各试题,如果该目标试题与所述各试题中任一试题的内容相似度大于预设阈值,则判定该目标试题为重复试题并删除,否则保存该目标试题及其特征编码至所述试题资源库。/n
【技术特征摘要】
1.一种试题去重方法,其特征在于,包括:
获取目标试题;
确定所述目标试题的题型和涉及的知识点集合;
根据所述题型和所述知识点集合按照预设编码规则生成该目标试题的特征编码,并从试题资源库中获取具有所述特征编码的各试题,如果该目标试题与所述各试题中任一试题的内容相似度大于预设阈值,则判定该目标试题为重复试题并删除,否则保存该目标试题及其特征编码至所述试题资源库。
2.如权利要求1所述的试题去重方法,其特征在于,所述获取目标试题之前,还包括:
获取目标试题资源;
基于预先构建的试题信息特征库从所述目标试题资源中拆分出各所述目标试题。
3.如权利要求2所述的试题去重方法,其特征在于,所述基于预先构建的试题信息特征库从所述目标试题资源中拆分出各所述目标试题,进一步包括:
将所述目标试题资源按照段落标签划分为多个段落;
根据所述试题信息特征库中试题序号特征信息识别出各段落中的试题序号并标注;
根据所述试题信息特征库中试题导语特征信息识别所述目标试题资源中包含的所述导语关键词,标注所述导语关键词所在段落为导语段落;
将相邻的两个所述导语段落之间的内容划分为一个独立试题块,并根据各独立试题块中所述导语段落和所述试题序号从所述各独立试题块中拆分出各所述目标试题。
4.如权利要求1-3中任意一项所述的试题去重方法,其特征在于,所述确定所述目标试题的题型和涉及的知识点集合,进一步包括:
基于预先构建的试题信息特征库确定所述目标试题的题型;
基于预先构建的知识点库匹配出所述目标试题涉及的知识点集合。
5.如权利要求4所述的试题去重方法,其特征在于,所述基于预先构建的试题信息特征库确定所述目标试题的题型,进一步包括:
根据所述试题信息特征库中试题导语特征信息识别所述目标试题中包含的导语关键词,并根据所述导语关键词确定所述目标试题的标准导语;
根据所述试题信息特征库中每个标准导语对应的题型信息确定该标准导语对应的一种或多种题型;
如果该标准导语对应有一种题型,则判定该题型为该目标试题的题型;
如果该标准导语对应有多种题型,则确定所述目标试题的试题结构,并基于所述多种题型根据所述试题信息特征库中标准试题结构信息确定该试题结构对应的题型为该目标试题的题型。
6.如权利要求5所述的试题去重方法,其特征在于,所述根据所述导语关键词确定所述目标试题的标准导语,进一步包括:
根据所述试题信息特征库中标准导语信息和所述每个标准导语对应的导语关键词信息识别所述目标试题中包含的导语关键词,标注所述导语关键词所在段落为导语段落,并确定所述导语段落对应的各标准导语;
计算所述导语段落与其对应的各标准导语的内容相似度,判定与所述导语段落的内容相似度最大的标准导语为该导语段落的标准导语。
7.如权利要求6所述的试题去重方法,其特征在于,计算所述导语段落与其对应的各标准导语的内容相似度,判定与所述导语段落的内容相似度最大的标准导语为该导语段落的标准导语之前,还包括:
如果所述导语段落有多个,则对于每个导语段落,计算该导语段落与其对应的各标准导语的关键词相似度,如果该导语段落与其对应的各标准导语的关键词相似度均小于第一阈值,则该导语段落为伪导语段落,取消其导语段落标注;
所述计算所述导语段落与其对应的各标准导语的内容相似度,判定与所述导语段落的内容相似度最大的标准导语为该导语段落的标准导语,进一步包括:
计算所述导语段落与其对应的各标准导语的关键词相似度,并统计与该导语段落的关键词相似度大于所述第一阈值的标准导语集合,判定所述标...
【专利技术属性】
技术研发人员:张新华,颜懿,徐星,郭瑞,
申请(专利权)人:浙江蓝鸽科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。