题目去重方法技术

技术编号:39661214 阅读:22 留言:0更新日期:2023-12-11 18:23
本公开提供一种题目去重方法

【技术实现步骤摘要】
题目去重方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及一种题目去重方法

装置

电子设备及存储介质


技术介绍

[0002]在题目搜索与推荐系统中,通过从题库中搜索来获得推荐给用户的题目

如果题库中的重复题目较多,则搜索到的多个题目很大可能是一样的题目,使得推荐给用户的题目是重复的,给题目推荐造成不好的体验,因此,对题库进行去重是十分重要的

[0003]相关技术中,对题库进行去重通常是采用计算文本相似度的方式实现的,将文本相似度高于预设值的题目判定为重复题目进行去除,采用这种方式得到的去重后题库的可靠性不高


技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种题目去重方法

装置

电子设备及存储介质

[0005]根据本公开的一方面,提供了一种题目去重方法,包括:
[0006]获取待去重题库中每道题目对应的题目信息;
[0007]根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,其中,所述种子题库中任意两道种子题目的题目信息不同;
[0008]计算所述非种子题库中的第一非种子题目分别与所述种子题库中每道种子题目之间的第一相似度,所述第一非种子题目为所述非种子题库中的任一非种子题目;
[0009]响应于所述第一相似度中的最大值小于第一阈值,将所述第一非种子题目添加至所述种子题库中;
[0010]响应于遍历完所述非种子题库中的所有非种子题目,将所述种子题库确定为对所述待去重题库进行去重后的目标题库

[0011]根据本公开的另一方面,提供了一种题目去重装置,包括:
[0012]信息获取模块,用于获取待去重题库中每道题目对应的题目信息;
[0013]题库划分模块,用于根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,其中,所述种子题库中任意两道种子题目的题目信息不同;
[0014]第一计算模块,用于计算所述非种子题库中的第一非种子题目分别与所述种子题库中每道种子题目之间的第一相似度,所述第一非种子题目为所述非种子题库中的任一非种子题目;
[0015]第一添加模块,用于响应于所述第一相似度中的最大值小于第一阈值,将所述第一非种子题目添加至所述种子题库中;
[0016]题库确定模块,用于响应于遍历完所述非种子题库中的所有非种子题目,将所述种子题库确定为对所述待去重题库进行去重后的目标题库

是“至少部分地基于”。
术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。
其他术语的相关定义将在下文描述中给出

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置

模块或单元进行区分,并非用于限定这些装置

模块或单元所执行的功能的顺序或者相互依存关系

[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制

[0035]以下参照附图描述本公开提供的题目去重方法

装置

电子设备及存储介质

[0036]在题目搜索与推荐系统中,由于题库中的重题数量较多,搜索出来的题目有很多都是一模一样的题目,这给题目搜索推荐和相似题目搜索带来了很不好的体验,因此去除重复题目就显得尤为重要

另外,去除重复的题目,使得题库更加规范和清晰,这样可以避免用户在做题时重复练习同一道题目,有助于节省用户的时间和精力

同时,去除重复题目也可以提高题库的质量和可靠性,避免因为重复题目而导致用户对题库的信任度降低

[0037]目前,常用的题目去重方式是计算题库中题目的文本相似度,将文本相似度较高的题目判定为重复题目进行去除,仅保留文本相似度较低的题目

但考虑到题目描述方式的多样性,不同的文本内容可能表示相同的题目意思,但计算的文本相似度可能较小,导致相同意思的题目被误判为非重复题目而未被去重

另外,考虑到数学题目的数字差异,仅数字差异较大的题目也可能因为相似度较低而被误判为非重复题目无法去除

可见,采用现有的通过文本相似度进行题目去重的方案,得到的去重后题库的可靠性不高

[0038]针对上述问题,本公开提供了一种题目去重方法,通过获取待去重题库中每道题目对应的题目信息,并根据题目信息,将待去重题库划分为种子题库和非种子题库,其中,种子题库中任意两道种子题目的题目信息不同,接着计算非种子题库中的第一非种子题目分别与种子题库中每道种子题目之间的第一相似度,第一非种子题目为非种子题库中的任一非种子题目,并响应于第一相似度中的最大值小于第一阈值,将第一非种子题目添加至种子题库中,最后,响应于遍历完非种子题库中的所有非种子题目,将种子题库确定为对待去重题库进行去重后的目标题库

采用本公开的方案,先根据题目的题目信息筛选出题目信息不同的题目构建种子题库,并利用构建的种子题库进一步对非种子题库中的非种子题目进行筛选,找出与种子题目不相似的非种子题目添加至种子题库中,直至遍历完所有的非种子题目,得到去重后的目标题库,因此目标题库中的题目包含了题目信息不一致的题目,也包含了相似度较低的题目,提高了题目去重质量,保证了目标题库的可靠性

[0039]图1示出了根据本公开一示例性实施例的题目去重方法的流程图,该方法可以由本公开实施例提供的题目去重装置执行,其中该装置可以采用软件和
/
或硬件实现,一般可集成在电子设备中,所述电子设备包括电脑

平板电脑

服务器等设备

[0040]如图1所示,该题目去重方法可以包括以下步骤:
[0041]步骤
101
,获取待去重题库中每道题目对应的题目信息

[0042]本公开实施例中,待去重题库中可以包含大量的题目,这些题目可以是同科目的题目,比如待去重题库中的题目均为数学题目,或者,这些题目也可以是不同科目的题目,
比如待去重题库中的题目为数学题目

语文题目

英语题目等多个学科的题目

针对待去重题库中的每道题目,可以获取该题目的题目信息...

【技术保护点】

【技术特征摘要】
1.
一种题目去重方法,其中,所述方法包括:获取待去重题库中每道题目对应的题目信息;根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,其中,所述种子题库中任意两道种子题目的题目信息不同;计算所述非种子题库中的第一非种子题目分别与所述种子题库中每道种子题目之间的第一相似度,所述第一非种子题目为所述非种子题库中的任一非种子题目;响应于所述第一相似度中的最大值小于第一阈值,将所述第一非种子题目添加至所述种子题库中;响应于遍历完所述非种子题库中的所有非种子题目,将所述种子题库确定为对所述待去重题库进行去重后的目标题库
。2.
如权利要求1所述的题目去重方法,其中,所述题目信息包括科目和题目字符数;所述根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,包括:根据所述科目和所述题目字符数对所述待去重题库中的题目进行聚类,得到多个题组,其中,同一题组中各题目的科目和题目字符数相同;按照预设的筛选规则,从所述多个题组中筛选出种子题目;利用所述种子题目,构建种子题库;利用所述多个题组中除所述种子题目外的剩余题目,构建非种子题库
。3.
如权利要求2所述的题目去重方法,其中,所述题目信息还包括中文字符数

英文字符数和数字字符数,所述数字字符数指的是题目中出现的数值的个数;并且其中,所述按照预设的筛选规则,从所述多个题组中筛选出种子题目,包括:针对每个题组,根据同一题组中各题目的中文字符数

英文字符数和数字字符数筛选出种子题目,其中,从同一题组中筛选出的任意两道所述种子题目的所述中文字符数

所述英文字符数和所述数字字符数中的至少两项不同
。4.
如权利要求2所述的题目去重方法,其中,所述利用所述种子题目,构建种子题库,包括:利用所述种子题目,生成初始种子题库;计算第一种子题目与第二种子题目之间的第二相似度,其中,所述第一种子题目为所述初始种子题库中的任一题目,所述第二种子题目为所述初始种子题库中除所述第一种子题目以外的每一道种子题目;响应于所述第二相似度中的最大值不小于第二阈值,将所述第一种子题目从所述初始种子题库中删除;响应于遍历完所述初始种子题库中的所有种子题目,得到种子题库
。5.
如权利要求1‑4任一项所述的题目去重方法,其中,所述方法还包括:响应于所述第一相似度中的最大值不小于所述第一阈值,获取所述第一相似度中的最大值对应的目标种子题目;获取所述目标种子题目的目标题目信息;响应于所述目标题目信息与所述第一非种子题目的题目信息不一致,将所述第一非种子题目添加至所述种子题库中
。6.
如权利要求1‑4任一项所述的题目去重方法,其中,所述方法还包括:
从所述非种子题库中获取目标非种子题目;针对每道所述目标非种子题目,计算所述目标非种子题目分别与所述...

【专利技术属性】
技术研发人员:兴百桥
申请(专利权)人:深圳市星桐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1