处理重复题目的方法与装置以及电子设备和存储介质制造方法及图纸

技术编号:29103044 阅读:36 留言:0更新日期:2021-06-30 10:16
本公开提供一种处理重复题目的方法与装置以及电子设备和存储介质,该方法包括:获取包括多个待选题目的题库;基于多个待选题目创建数据索引结构;获取目标题目,为目标题目创建索引比较对象集合;通过在数据索引结构中分别查找目标题目的索引比较对象集合中的每个复合特征,用以获取对应目标题目的重复题目的标识信息,其中,复合特征由对应题目的题干的词语特征与题目类型和/或科目构成。本公开通过将题目题干的词语特征与题目的题目类型和/或科目构成复合特征,并利用复合特征快速建立数据索引结构,以实现对所有题目的索引,从而能快速、准确地实现大规模题库的去重,避免人工干预,大量减少人力成本。大量减少人力成本。大量减少人力成本。

【技术实现步骤摘要】
处理重复题目的方法与装置以及电子设备和存储介质


[0001]本公开的实施例涉及一种处理重复题目的方法与装置以及电子设备和存储介质。

技术介绍

[0002]随着计算机和互联网技术的发展,中小学教育,乃至大学教育中的练习和考试题目均实现了电子化存储和管理。随着时间的推移,题库里面的题目会越来越多,例如,用于教师教研备课和学生练习的题目海量增长,逐步形成了海量的题库,而题库可能会出现一些重复或者非常相似的题目,此时需要对题目进行去重处理。

技术实现思路

[0003]本公开至少一实施例提供一种理重复题目的方法与装置以及电子设备和存储介质。
[0004]本公开至少一实施例提供了一种处理重复题目的方法,包括:获取包括多个待选题目的题库;基于所述多个待选题目创建数据索引结构,包括:获取所述多个待选题目中每个待选题目的至少一个第一复合特征,得到每个所述待选题目与对应第一复合特征的第一映射关系,其中,所述第一复合特征由对应的待选题目的题干的至少一个第一词语特征中的一个或多个与所述待选题目的题目类型和/或科目构成,使用所述多个待选题目中每个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种处理重复题目的方法,包括:获取包括多个待选题目的题库;基于所述多个待选题目创建数据索引结构,包括:获取所述多个待选题目中每个待选题目的至少一个第一复合特征,得到每个所述待选题目与对应第一复合特征的第一映射关系,其中,所述第一复合特征由对应的待选题目的题干的至少一个第一词语特征中的一个或多个与所述待选题目的题目类型和/或科目构成,使用所述多个待选题目中每个待选题目的每个第一复合特征以及基于所述多个待选题目中每个待选题目的第一映射关系,形成所述多个待选题目的所述数据索引结构;获取目标题目,为所述目标题目创建索引比较对象集合,包括:获取所述目标题目的题干的至少一个第二词语特征,通过将所述至少一个第二词语特征中的一个或多个与所述目标题目的题目类型和/或科目构成第二复合特征,得到第二复合特征集合,使用所述目标题目的所述第二复合特征集合以形成所述索引比较对象集合;通过在所述数据索引结构中分别查找所述目标题目的所述索引比较对象集合中的每个所述第二复合特征,用以获取对应所述目标题目的重复题目的标识信息。2.如权利要求1所述的处理重复题目的方法,其中,使用所述多个待选题目中每个待选题目的每个第一复合特征以及基于所述多个待选题目中每个待选题目的第一映射关系,形成所述多个待选题目的所述数据索引结构,包括:对于所述多个待选题目中每个待选题目的每个第一复合特征,通过所述多个待选题目中每个待选题目的第一映射关系,得到与每个所述第一复合特征对应的一个或多个待选题目,作为每个所述第一复合特征的一个或多个索引值,构建所述数据索引结构;或者对于所述多个待选题目中的每个所述待选题目,通过所述多个待选题目中每个所述待选题目的第一映射关系,得到与每个所述待选题目对应的一个或多个第一复合特征,作为每个所述待选题目的一个或多个索引值,构建所述数据索引结构。3.如权利要求2所述的处理重复题目的方法,其中,得到每个所述待选题目与对应第一复合特征的第一映射关系,包括:将每个所述待选题目的每个所述第一复合特征作为关键对象且将所述待选题目对应的所述标识信息作为与所述关键对象对应的索引值,通过所述关键对象与所述索引值映射关系来建立所述第一映射关系,其中,在从所述数据索引结构查找时通过比较所述索引比较对象集合中的第二复合特征和所述关键对象以获取对应的所述标识信息。4.如权利要求3所述的处理重复题目的方法,其中,所述数据索引结构为哈希表且所述索引值为哈希值。5.如权利要求1~4任一所述的处理重复题目的方法,还包括:将题目编号作为所述标识信息。6.如权利要求1所述的处理重复题目的方法,其中,获取所述目标题目,包括:从所述题库的多个待选题目中选择一个题目作为所述目标题目。7.如权利要求5所述的处理重复题目的方法,其中,通过在所述数据索引结构中查找所
述目标题目的所述索引比较对象集合中的每个所述第二复合特征,用以获取对应所述目标题目的重复题目的标识信息,包括:在所述数据索引结构中查找所述索引比较对象集合中的每个所述第二复合特征,以获取用于所述目标题目的重复题目编号候选集合,其中,所述重复题目编号候选集合包括所述目标题目对应的重复候选题目的题目编号;基于所述目标题目的重复题目编号候选集合,获取所述目标题目对应的重复题目的题目编号,其中,所述重复题目的题目编号是所述重复题目编号候选集合的至少一部分。8.如权利要求7所述的处理重复题目的方法,其中,在所述数据索引结构中查找所述索引比较对象集合中的每个所述第二复合特征,以获取用于所述目标题目的重复题目编号候选集合,包括:对于所述目标题目的索引比较对象集合中的每个所述第二复合特征,被从所述索引比较对象集合选择作为当前第二复合特征,在所述数据索引结构中查找所述当前第二复合特征,获取具有与所述当前第二复合特征相同的第一复合特征的一个或多个目标候选题目的题目编号,以得到对应所述当前第二复合特征的复合特征索引集合;将所述索引比较对象集合中每个所述第二复合特征对应的复合特征索引集合的全部题目编号放入同一个总集合中,通过分组统计获取所述总集合中的每个题目编号的第一数目;获取重复候选列表,其中,所述重复候选列表由每个所述目标候选题目的题目编号和对应的第一数目构成,或者,所述重复候选列表由所述目标题目的题目编号、每个所述目标候选题目的题目编号和对应的第一数目构成;基于所述重复候选列表,获取用于所述目标题目的重复题目编号候选集合。9.如权利要求8所述的处理重复题目的方法,其中,基于所述重复候选列表,获取用于所述目标题目的重复题目编号候选集,包括:获取所述重复候选列表中每个题目编号对应的目标候选题目与所述目标题目之间的相似度分数,其中,所述相似度分数被配置为等于:所述重复候选列表中每个题目编号对应的第一数目除以所述目标题目的第二复合特征集合中所述第二复合特征的总数得到的比值;将每个所述比值与预设分值进行比较;响应于所述比值大于等于所述预设分值,将所述比值对应的目标候选题目的题目编号作为所述重复候选题目的题目编号且作为所述重复题目编号候选集合的一个元素,以及,响应于所述比值小于预设分值,将所述比值对应的目标候选题目的题目编号不作为所述重复题目编号候选集合的一个元素,所述预设分值大于0并且小于1。10.如权利要求9所述的处理重复题目的方法,其中,基于所述目标题目的重复题目编号候选集合,获取所述目标题目对应的重复题目的题目编号,包括:构建包括多类判断特征的题目相似性判断特征组;基于所述题目相似性判断特征组,对所述目标题目和所述重复题目编号候选集合中每个题目编号对应的题目进行特征提取,用以分别获取对应的多类的特征提取结果;根据所述目标题目的多类的特征提取结果和所述重复题目编号候选集合中每个题目编号对应的题目的多类的特征提取结果,获取所述目标题目分别与所述重复题目编号候选
集合中每个题目编号对应的题目之间的整体相似度;根据所述整体相似度,获取所述目标题目的重复题目的题目编号。11.如权利要求10所述的处理重复题目的方法,其中,构建包括多类判断特征的题目相似性判断特征组号,包括:构建包括题干特征、运算符特征和数字特征的所述题目相似性判断特征组。12.如权利要求11所述的处理重复题目的方法,其中,基于所述题目相似性判断特征组,对所述目标题目和所述重复题目编号候选集合中每个题目编号对应的题目进行特征提取,用以分别获取对应的多类的特征提取结果,包括:基于包括题干特征、运算符特征和数字特征的所述题目相似性判断特征组,分别对所述目标题目进行题干特征提取、运算符特征提取和数字特征提取,得到所述目标题目的第一题干特征提取结果、第一运算符特征提取结果和第一数字特征提取结果;基于包括题干特征、运算符特征和数字特征的所述题目相似性判断特征组,分别对所述重复题目编号候选集合中每个题目编号对应的题目进行题干特征提取、运算符特征提取和数字特征提取,得到第二题干特征提取结果、第二运算符特征提取结果和第二数字特征提取结果。13.如权利要求12所述的处理重复题目的方法,其中,对于对所述目标题目进行题干特征提取,得到所述目标题目的第一题干特征提取结果,包括:通过深度神经网络模型对题库语料进行训练获得训练好的上下文词向量模型,并利用所述训练好的上下文词向量模型获取用于所述目标题目的第一特征向量,其中,所述题库语料通过对所述题库包括的多个待选题目进行文本处理和分词得到;通过深度神经网络模型对通用文本预料进行训练获得训练好的全局词向量模型,并利用所述训练好的全局词向量模型获取用于所述目标题目的第二特征向量,其中,所述通用文本预料通过对百科中文语料进行文本处理和分词得到;连接所述第一特征向量和所述第二特征向量,形成具有对应的第一向量维数n1的所述第一题干特征提取结果;以及对于对所述重复题目编号候选集合中每个题目编号对应的题目进行题干特征提取,得到第二题干特征提取结果,包括:通过深度神经网络模型对题库语料进行训练获得训练好的上下文词向量模型,并利用所述训练好的上下文词向量模型获取用于所述重复题目编号候选集合中每个题目编号对应的题目的第三特征向量,其中,所述题库语料通过对所述题库包括的多个待选题目进行文本处理和分词得到;通过深度神经网络模型对通用文本预料进行训练获得训练好的全局词向量模型,并利用所述训练好的全局词向量模型获取用...

【专利技术属性】
技术研发人员:欧志刚
申请(专利权)人:新东方教育科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1