一种试题的聚类方法、去重方法及系统技术方案

技术编号:22418156 阅读:42 留言:0更新日期:2019-10-30 02:01
本发明专利技术公开了一种试题的聚类方法、去重方法及系统。试题的聚类方法,包括:在所有参与聚类的试题中选取聚类中心试题;确定聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串,重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;计算第一字符串和第二字符串之间的加权编辑距离,加权编辑距离为第一字符串和第二字符串之间相互转化的最少的加权操作次数;根据加权编辑距离计算待聚类试题与聚类中心试题之间的相似度;将相似度大于预设阈值的待聚类试题与聚类中心试题归为同一试题类。本发明专利技术能够实现高效地对大规模试题进行聚类。

【技术实现步骤摘要】
一种试题的聚类方法、去重方法及系统
本专利技术涉及教育
,更具体地,涉及一种试题的聚类方法、去重方法及系统。
技术介绍
教育领域中不同的试题供应商,比如考试中心、教辅出版机构、培训机构、和各个学校的出题老师都会提供大量的试题。随着数字信息化在教育领域的应用,这些试题供应商也会采用在线平台、或者终端软件的方式向用户提供试题,而这些大量的试题中不免有很多同类型的试题或者是相似度极高的试题。因此,提供一种试题的聚类方法、去重方法及系统,实现高效地对大规模试题进行聚类,是本领域亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术提供了一种试题的聚类方法、去重方法及系统,解决了上述技术问题。第一方面,本专利技术提供一种试题的聚类方法,包括:在所有参与聚类的试题中选取聚类中心试题;确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;根据所述加权编辑距离计算所述待聚类试题与所述聚类中心试题之间的相似度,其中,相似度r的计算公式为:r=(sum-dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离;将相似度大于预设阈值的所述待聚类试题与所述聚类中心试题归为同一试题类。可选的,在所有参与聚类的试题中选取聚类中心试题的步骤之前,还包括:统一试题格式,其中,包括:对包含不同字符格式或者公式图片的htm试题文件进行分类识别和内容解析,转换成latex试题文本;将latex试题文本转换成可正常阅读的文本格式。可选的,在所有参与聚类的试题中选取聚类中心试题的步骤具体包括:根据试题的创建时间和试题的质量评价,对所有参与聚类的试题进行排序;选择排序为第一位的试题作为所述聚类中心试题。可选的,确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串的步骤包括:采用词频-逆文档频度模型构建重要关键字字符库;根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。可选的,所述加权编辑距离的操作包括:插入、删除、替换;其中,在计算加权操作次数时:删除记为一次操作,插入记为一次操作,替换记为两次操作。第二方面,本专利技术还提供一种试题的去重方法,包括:采用本专利技术提供的任意一种试题的聚类方法对待去重试题组中的试题进行聚类处理;删除与所述聚类中心试题属于同一试题类的试题。第三方面,本专利技术提供一种试题的聚类系统,包括:聚类中心试题选取模块、重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块和试题归类模块;其中,所述聚类中心试题选取模块,与所述重要关键字符确定模块相连接,用于在所有参与聚类的试题中选取聚类中心试题,并将选取的所述聚类中心试题发送给所述重要关键字符确定模块;所述重要关键字符确定模块,与所述加权编辑距离计算模块相连接,用于确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串,并将所述第一字符串和所述第二字符串发送给所述加权编辑距离计算模块,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;所述加权编辑距离计算模块,与所述相似度计算模块相连接,用于计算所述第一字符串和所述第二字符串之间的加权编辑距离,并将所述加权编辑距离发送给所述相似度计算模块,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;所述相似度计算模块,与试题归类模块相连接,用于根据所述加权编辑距离计算所述待聚类试题与所述聚类中心试题之间的相似度,并将所述相似度发送给所述试题归类模块,其中,相似度r的计算公式为:r=(sum-dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离;所述试题归类模块,用于将相似度大于预设阈值的所述待聚类试题与所述聚类中心试题归为同一试题类。可选的,还包括格式统一模块,所述格式统一模块,与所述聚类中心试题选取模块和所述重要关键字符确定模块分别相连接,用于对包含不同字符格式或者公式图片的htm试题文件进行分类识别和内容解析,转换成latex试题文本;还用于将latex试题文本转换成可正常阅读的文本格式。可选的,所述重要关键字符确定模块还包括字符库构建模块和字符串确定模块,其中,所述字符库构建模块,用于采用词频-逆文档频度技术构建重要关键字字符库;所述字符串确定模块,用于根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。第四方面,本专利技术提供一种试题的去重系统,包括本专利技术提供的任意一种试题的聚类系统,还包括试题去重模块,所述试题去重模块与所述试题归类模块相连接,用于接收所述试题归类模块发送的试题分类结果,并删除与所述聚类中心试题属于同一试题类的试题。与现有技术相比,本专利技术提供的试题的聚类方法、去重方法及系统,至少实现了如下的有益效果:(1)本专利技术提供的试题的聚类方法,首先在所有参与聚类的试题中选取聚类中心试题,然后基于聚类中心试题和待聚类试题中的重要关键字作为权重,计算聚类中心试题和待聚类试题中的重要关键字之间的加权编辑距离,进而计算聚类中心试题和待聚类试题的相似度,来实现聚类划分,采用较短的字符串之间的编辑距离计算来评价相似度,能够简化计算过程,且能够实现对大规模试题进行高效的聚类。(2)基于本专利技术提供的试题的聚类方法,通过对相似度判断时采用的预设阈值进行设置,能够聚类出与聚类中心试题相似度非常高的试题,这些相似度非常高的试题几乎可以判定为与聚类中心试题相比的重复试题,将相似度非常高的试题去除后只保留聚类中心试题,采用本专利技术提供的方法,能够实现高效地对大规模试题进行准确去重。当然,实施本专利技术的任一产品必不特定需要同时达到以上所述的所有技术效果。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1为本专利技术实施例提供的试题的聚类方法流程图;图2为采用本专利技术提供的聚类方法生成的试题聚类示意图;图3为本专利技术实施例提供的试题的去重方法流程图;图4为本专利技术实施例提供的试题的聚类系统框图一;图5为本专利技术实施例提供的试题的聚类系统框图二;图6为本专利技术实施例提供的试题的去重系统框图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表本文档来自技高网...

【技术保护点】
1.一种试题的聚类方法,其特征在于,包括:在所有参与聚类的试题中选取聚类中心试题;确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;根据所述加权编辑距离计算所述待聚类试题与所述聚类中心试题之间的相似度,其中,相似度r的计算公式为:r=(sum‑dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离;将相似度大于预设阈值的所述待聚类试题与所述聚类中心试题归为同一试题类。

【技术特征摘要】
1.一种试题的聚类方法,其特征在于,包括:在所有参与聚类的试题中选取聚类中心试题;确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串,所述重要关键字符为新增、替换或者修改后会改变试题含义或者类型的字符;计算所述第一字符串和所述第二字符串之间的加权编辑距离,所述加权编辑距离为所述第一字符串和所述第二字符串之间相互转化的最少的加权操作次数;根据所述加权编辑距离计算所述待聚类试题与所述聚类中心试题之间的相似度,其中,相似度r的计算公式为:r=(sum-dist)/sum,其中,sum为所述第一字符串和所述第二字符串的长度总和,dist为所述加权编辑距离;将相似度大于预设阈值的所述待聚类试题与所述聚类中心试题归为同一试题类。2.根据权利要求1所述的聚类方法,其特征在于,在所有参与聚类的试题中选取聚类中心试题的步骤之前,还包括:统一试题格式,其中,包括:对包含不同字符格式或者公式图片的htm试题文件进行分类识别和内容解析,转换成latex试题文本;将latex试题文本转换成可正常阅读的文本格式。3.根据权利要求1所述的聚类方法,其特征在于,在所有参与聚类的试题中选取聚类中心试题的步骤具体包括:根据试题的创建时间和试题的质量评价,对所有参与聚类的试题进行排序;选择排序为第一位的试题作为所述聚类中心试题。4.根据权利要求1所述的聚类方法,其特征在于,确定所述聚类中心试题的重要关键字符记为第一字符串,确定待聚类试题的重要关键字符记为第二字符串的步骤包括:采用词频-逆文档频度模型构建重要关键字字符库;根据所述重要关键字字符库确定所述第一字符串和所述第二字符串。5.根据权利要求1所述的聚类方法,其特征在于,所述加权编辑距离的操作包括:插入、删除、替换;其中,在计算加权操作次数时:删除记为一次操作,插入记为一次操作,替换记为两次操作。6.一种试题的去重方法,其特征在于,包括:采用权利要求1至5任一项所述的试题的聚类方法对待去重试题组中的试题进行聚类处理;删除与所述聚类中心试题属于同一试题类的试题。7.一种试题的聚类系统,其特征在于,包括:聚类中心试题选取模块、重要关键字符确定模块、加权编辑距离计算模块、相似度计算模块和试题归类模块;其中,...

【专利技术属性】
技术研发人员:谢楚鹏李可佳郭晨阳
申请(专利权)人:江苏曲速教育科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1