System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 相似试题检索方法、系统、设备及存储介质技术方案_技高网

相似试题检索方法、系统、设备及存储介质技术方案

技术编号:41013696 阅读:2 留言:0更新日期:2024-04-18 21:50
本发明专利技术公开了一种相似试题检索方法、系统、设备及存储介质,采用本发明专利技术的方案,不仅能在哈希码中保留更多的关键试题语义信息,同时能提高哈希码的检索效率以及减少存储成本,为实施高效且精确的相似题检索提供帮助;通过在两个真实试题数据集上的实验与目前在相似题查找任务和语义哈希任务上的基准模型进行实验对比,不仅在准确率方面证明了本发明专利技术的有效性,还从效率实验上证明了本发明专利技术的高效性。

【技术实现步骤摘要】

本专利技术涉及相似题检索,尤其涉及一种相似试题检索方法、系统、设备及存储介质


技术介绍

1、在线教育系统已经成为当今教育行业不可或缺的一部分。随着在线教育系统的蓬勃发展,试题数据成倍增加,用户可以接触到海量的试题数据。通常情况下,相似的试题被认为是具有相同考查目的的试题,因此相似题检索系统能够帮助用户在大量的试题资源中找到与用户给定试题相关的其他试题,使得学生可以通过检索相似的试题进行个性化学习,或者教师可以利用这些试题对学生进行认知分析。

2、近年来,研究者提出相似题检索(finding similar exercise,fse)任务,用于提供个性化学习和认知分析。其主要的目标在于,对于用户给出的一个试题查询,系统要返回一些与查询试题相似的试题。最近提出的有关fse的研究工作主要集中在利用预训练语言模型以及融合多模态试题数据的方法进行精准的试题相似度识别。这些方法主要考虑试题文本、图片的相似度或者是试题考察知识点的相似度,并利用相关性标注进行监督式训练,在相似题检索任务的精度指标方面已经取得了不错的效果,但是它们忽略了效率问题。随着试题数量不断增加,这些方法的计算复杂度和存储开销将快速上升,难以应用到真实世界的大规模试题数据集上;此外,对大规模数据集进行相关性标注也是非常困难的一件事,因此需要设计一种无监督的高效试题检索的方案。

3、无监督语义哈希作为一种高效率的大规模信息检索技术,已经受到研究者们的广泛关注,并被广泛地应用于各种各样的大规模检索任务中。它能在不利用数据相关性的前提下,以保证原有数据空间结构的方式将高维连续空间的数据映射到低维的二进制空间(又称汉明空间),从而显著降低存储成本和计算开销。因此语义哈希技术可以对大规模数据集进行高效的检索。虽然语义哈希技术在一些领域取得了良好效果,但是将语义哈希技术直接应用到相似题检索任务进行建模仍然存在挑战。这是因为试题数据包含丰富的多模态语义信息,而哈希码的表征能力有限,难以有效存储丰富、复杂的试题信息,因此需要设计一种在大量试题场景下的无监督语义哈希方案。


技术实现思路

1、本专利技术的目的是提供一种相似试题检索方法、系统、设备及存储介质,可以减少存储占用,提升大规模相似题检索任务的效率。

2、本专利技术的目的是通过以下技术方案实现的:

3、一种相似试题检索方法,包括:

4、收集试题数据,构建训练数据集;

5、构建语义哈希模型,并利用训练数据集训练所述语义哈希模型:在训练过程的每一次批次,随机从训练数据集中采样多个试题,并构建每一试题的正负样本,通过语义哈希模型获得每一试题,以及每一试题正负样本的哈希码,并计算对比学习损失函数;在通过语义哈希模型获得每一试题的哈希码过程中,对于试题的文本信息通过预训练的文本模型提取出文本表征通过卷积处理,获得试题的局部表征,再通过池化获得全局表征,计算最大化全局与局部表征的目标损失函数,或者当试题具备对应的图像数据时,利用从图像数据中提取的图像表征计算局部表征的权重,结合权重计算图像增强的最大化全局与局部表征目标损失函数;试题的全局表征经时间感知的激活函数获得对应的类二值表征,利用类二值表征计算空间利用率最大化目标损失函数;综合所有损失函数作为最终目标损失函数,训练所述语义哈希模型;

6、训练完毕后,通过语义哈希模型获得候选试题集合中每一试题的二值的哈希码,并构建语义哈希索引,对于查询试题,通过语义哈希模型获得对应的二值的哈希码,再结合语义哈希索引检索出相似试题。

7、一种相似试题检索系统,包括:

8、数据集构建单元,用于收集试题数据,构建训练数据集;

9、训练单元,用于构建语义哈希模型,并利用训练数据集训练所述语义哈希模型:在训练过程的每一次批次,随机从训练数据集中采样多个试题,并构建每一试题的正负样本,通过语义哈希模型获得每一试题,以及每一试题正负样本的哈希码,并计算对比学习损失函数;在通过语义哈希模型获得每一试题的哈希码过程中,对于试题的文本信息通过预训练的文本模型提取出文本表征通过卷积处理,获得试题的局部表征,再通过池化获得全局表征,计算最大化全局与局部表征的目标损失函数,或者当试题具备对应的图像数据时,利用从图像数据中提取的图像表征计算局部表征的权重,结合权重计算图像增强的最大化全局与局部表征目标损失函数;试题的全局表征经时间感知的激活函数获得对应的类二值表征,利用类二值表征计算空间利用率最大化目标损失函数;综合所有损失函数作为最终目标损失函数,训练所述语义哈希模型;

10、相似试题检索单元,用于训练完毕后,通过语义哈希模型获得候选试题集合中每一试题的哈希码,并构建语义哈希索引,对于查询试题,通过语义哈希模型获得对应的哈希码,再结合语义哈希索引检索出相似试题。

11、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

12、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

13、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

14、由上述本专利技术提供的技术方案可以看出,采用本专利技术的方案,不仅能在哈希码中保留更多的关键试题语义信息,同时能提高哈希码的检索效率以及减少存储成本,为实施高效且精确的相似题检索提供帮助;通过在两个真实试题数据集上的实验与目前在相似题查找任务和语义哈希任务上的基准模型进行实验对比,不仅在准确率方面证明了本专利技术的有效性,还从效率实验上证明了本专利技术的高效性。

本文档来自技高网...

【技术保护点】

1.一种相似试题检索方法,其特征在于,包括:

2.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述随机从训练数据集中采样多个试题,并构建每一试题的正负样本,通过语义哈希模型获得每一试题,以及每一试题正负样本的哈希码,并计算对比学习损失函数包括:

3.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述对于试题的文本信息通过预训练的文本模型提取出文本表征通过卷积处理,获得试题的局部表征,再通过池化获得全局表征包括:

4.根据权利要求1或3所述的一种相似试题检索方法,其特征在于,计算最大化全局与局部表征的目标损失函数表示为:

5.根据权利要求1或3所述的一种相似试题检索方法,其特征在于,所述当试题具备对应的图像数据时,利用从图像数据中提取的图像表征计算局部表征的权重,结合权重计算图像增强的最大化全局与局部表征目标损失函数包括:

6.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述试题的全局表征经时间感知的激活函数获得对应的类二值表征表示为:

7.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述利用类二值表征计算空间利用率最大化目标损失函数包括:

8.一种相似试题检索系统,其特征在于,包括:

9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种相似试题检索方法,其特征在于,包括:

2.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述随机从训练数据集中采样多个试题,并构建每一试题的正负样本,通过语义哈希模型获得每一试题,以及每一试题正负样本的哈希码,并计算对比学习损失函数包括:

3.根据权利要求1所述的一种相似试题检索方法,其特征在于,所述对于试题的文本信息通过预训练的文本模型提取出文本表征通过卷积处理,获得试题的局部表征,再通过池化获得全局表征包括:

4.根据权利要求1或3所述的一种相似试题检索方法,其特征在于,计算最大化全局与局部表征的目标损失函数表示为:

5.根据权利要求1或3所述的一种相似试题检索方法,其特征在于,所述当试题具备对应的图...

【专利技术属性】
技术研发人员:何理扬佟威陈恩红刘淇黄振亚李锐黄威
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1