【技术实现步骤摘要】
题目去重方法、装置、电子设备及存储介质
[0001]本公开涉及数据处理
,尤其涉及一种题目去重方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]在题目搜索与推荐系统中,通过从题库中搜索来获得推荐给用户的题目
。
如果题库中的重复题目较多,则搜索到的多个题目很大可能是一样的题目,使得推荐给用户的题目是重复的,给题目推荐造成不好的体验,因此,对题库进行去重是十分重要的
。
[0003]相关技术中,对题库进行去重通常是采用计算文本相似度的方式实现的,将文本相似度高于预设值的题目判定为重复题目进行去除,采用这种方式得到的去重后题库的可靠性不高
。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种题目去重方法
、
装置
、
电子设备及存储介质
。
[0005]根据本公开的一方面,提供了一种题目去重方法,包括:
[0006]获取待去重题库中每道题目对应的题目信息;
[0007]根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,其中,所述种子题库中任意两道种子题目的题目信息不同;
[0008]计算所述非种子题库中的第一非种子题目分别与所述种子题库中每道种子题目之间的第一相似度,所述第一非种子题目为所述非种子题库中的任一非种子题目;
[0009]响应于所述第一相似度中的最大值
【技术保护点】
【技术特征摘要】
1.
一种题目去重方法,其中,所述方法包括:获取待去重题库中每道题目对应的题目信息;根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,其中,所述种子题库中任意两道种子题目的题目信息不同;计算所述非种子题库中的第一非种子题目分别与所述种子题库中每道种子题目之间的第一相似度,所述第一非种子题目为所述非种子题库中的任一非种子题目;响应于所述第一相似度中的最大值小于第一阈值,将所述第一非种子题目添加至所述种子题库中;响应于遍历完所述非种子题库中的所有非种子题目,将所述种子题库确定为对所述待去重题库进行去重后的目标题库
。2.
如权利要求1所述的题目去重方法,其中,所述题目信息包括科目和题目字符数;所述根据所述题目信息,将所述待去重题库划分为种子题库和非种子题库,包括:根据所述科目和所述题目字符数对所述待去重题库中的题目进行聚类,得到多个题组,其中,同一题组中各题目的科目和题目字符数相同;按照预设的筛选规则,从所述多个题组中筛选出种子题目;利用所述种子题目,构建种子题库;利用所述多个题组中除所述种子题目外的剩余题目,构建非种子题库
。3.
如权利要求2所述的题目去重方法,其中,所述题目信息还包括中文字符数
、
英文字符数和数字字符数,所述数字字符数指的是题目中出现的数值的个数;并且其中,所述按照预设的筛选规则,从所述多个题组中筛选出种子题目,包括:针对每个题组,根据同一题组中各题目的中文字符数
、
英文字符数和数字字符数筛选出种子题目,其中,从同一题组中筛选出的任意两道所述种子题目的所述中文字符数
、
所述英文字符数和所述数字字符数中的至少两项不同
。4.
如权利要求2所述的题目去重方法,其中,所述利用所述种子题目,构建种子题库,包括:利用所述种子题目,生成初始种子题库;计算第一种子题目与第二种子题目之间的第二相似度,其中,所述第一种子题目为所述初始种子题库中的任一题目,所述第二种子题目为所述初始种子题库中除所述第一种子题目以外的每一道种子题目;响应于所述第二相似度中的最大值不小于第二阈值,将所述第一种子题目从所述初始种子题库中删除;响应于遍历完所述初始种子题库中的所有种子题目,得到种子题库
。5.
如权利要求1‑4任一项所述的题目去重方法,其中,所述方法还包括:响应于所述第一相似度中的最大值不小于所述第一阈值,获取所述第一相似度中的最大值对应的目标种子题目;获取所述目标种子题目的目标题目信息;响应于所述目标题目信息与所述第一非种子题目的题目信息不一致,将所述第一非种子题目添加至所述种子题库中
。6.
如权利要求1‑4任一项所述的题目去重方法,其中,所述方法还包括:
从所述非种子题库中获取目标非种子题目;针对每道所述目标非种子题目,计算所述目标非种子题目分别与所述...
【专利技术属性】
技术研发人员:兴百桥,
申请(专利权)人:深圳市星桐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。