一种题目数据生成方法技术

技术编号:39422378 阅读:7 留言:0更新日期:2023-11-19 16:10
本申请公开了一种题目数据的生成方法

【技术实现步骤摘要】
一种题目数据生成方法、内容获取方法及装置


[0001]本申请涉及内容生成领域,具体涉及一种题目数据生成方法

内容获取方法

本申请同时涉及一种题目数据生成装置

内容获取装置

电子设备和计算机存储介质


技术介绍

[0002]近年来,拍照搜题在教育行业广泛使用,为学生和家长带来很大的便利

用户只需要对着习题用手机摄像头拍照上传,搜题系统基于
OCR
识别技术,来识别上传图片中的文字或者公式,再通过后台的题库进行搜索,给出匹配的题目和答案

[0003]当前在拍照搜题场景中,对用户需求满足影响较大的就是题库的规模与覆盖,此时高效的题库生成能力变得尤为重要

传统的题库生成手段包括外部资源合作采买

教研团队人工生成,需要耗费大量的人力物力以及较长的时间周期,而用户的题目需求往往具有较强的时效性,导致通过上述传统手段进行题库生成带来的收益往往不及预期

[0004]因此,针对当前题库生成方式无法及时满足用户需求的问题,寻求一种低成本

自动化的解决方案就变得十分必要


技术实现思路

[0005]本申请提供一种题目数据的生成方法及其装置,以解决现有技术中题库不能及时满足用户需求的问题

本申请还提供一种内容获取方法及其装置

本申请同时提供上述方法对应的电子设备和计算机存储介质

[0006]本申请提供了一种题目数据的生成方法,包括:
[0007]获取目标题目;
[0008]针对所述目标题目,在目标数据资源池中获得包含所述目标题目的答案的候选页面;
[0009]按段落拆分所述候选页面,根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落;
[0010]从所述候选段落中抽取相关片段作为所述目标题目的答案

[0011]可选地,所述在目标数据资源池中获得包含所述目标题目的答案的候选页面,包括:
[0012]在所述目标数据资源池中进行检索;
[0013]将检索到的资源页面以及所述目标题目输入至第一神经网络进行分类,获得与所述目标题目符合答案匹配要求的资源页面作为所述候选页面

[0014]可选地,所述在目标数据资源池中获得包含所述目标题目的答案的候选页面,包括:
[0015]在所述目标数据资源池中进行检索;
[0016]将检索到的资源页面以及所述目标题目输入至第一神经网络进行分类,获得与所述目标题目符合答案匹配要求的资源页面作为第一候选页面;
[0017]将检索到的资源页面以及所述目标题目输入至第二神经网络进行分类,获得包含与所述目标题目符合答案匹配要求的资源页面作为第二候选页面;其中,所述第二神经网络是与所述第一神经网络具有不同基础架构的神经网络;
[0018]将所述第一候选页面,与所述第二候选页面进行融合,获得所述候选页面

[0019]可选地,所述根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落,包括:
[0020]将拆分出的每个段落与所述目标题目输入至第三神经网络,获得两者的相关性得分;
[0021]基于所述相关性得分对所有段落进行排序,根据预定规则,选择相应排序对应的段落作为包含所述答案的候选段落

[0022]可选地,所述根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落,包括:
[0023]将拆分出的每个段落与所述目标题目输入至第三神经网络,获得两者的第一相关性得分;
[0024]将拆分出的每个段落与所述目标题目输入至第四神经网络,获得两者的第二相关性得分;
[0025]将所述第一相关性得分与所述第二相关性得分进行融合,获得第三相关性得分;
[0026]基于所述第三相关性得分对所有段落进行排序,根据预定规则,选择相应排序对应的段落作为包含所述答案的候选段落

[0027]可选地,所述从所述候选段落中抽取相关片段作为所述目标题目的答案,包括:
[0028]将所述候选段落和所述题目输入至第五神经网络,根据所述第五神经网络的匹配结果,抽取所述候选段落的相关片段作为所述目标题目的答案

[0029]可选地,所述第一神经网络

第二神经网络

第三神经网络

第四神经网络

第五神经网络为经过预训练的深度神经网络,所述预训练包括:
[0030]将题库中的填空类题目作为训练样本,对所述第一神经网络

第二神经网络

第三神经网络

第四神经网络

第五神经网络分别进行无监督学习训练

[0031]可选地,所述在所述目标数据资源池中进行检索之前,还包括:
[0032]对所述目标题目进行关键词提取,使用提取到的关键词对所述目标题目进行改写,获得目标题目检索文本;
[0033]使用所述目标题目检索文本作为在所述目标数据资源池中进行检索的检索依据

[0034]可选地,所述获取目标题目,包括:
[0035]根据原始题目在题库中的检索结果,筛选出无法获得满意答案的目标原始题目;
[0036]对所述目标原始题目进行预处理,获得目标题目

[0037]可选地,所述目标原始题目为用户拍摄的图片,所述预处理包括:
[0038]去除所述图片的隐私信息;
[0039]对所述图片进行降噪处理;
[0040]对所述图片进行文本识别

[0041]可选地,还包括:
[0042]如果所述目标题目包括小题选项,则对所述目标题目按小题选项进行拆分,将各
个小题对应的题目作为目标题目

[0043]可选地,还包括:
[0044]将所述目标题目和所述答案组合为一组题目数据保存到题库

[0045]可选地,所述将所述目标题目和所述答案组合为一组题目数据保存到题库,包括:
[0046]按照所述题库的规范,对所述目标题目进行结构化处理;
[0047]将所述目标题目以及所述答案建立相互对应关系;
[0048]将建立对应关系后的目标题目以及所述答案作为一组题目数据保存到题库

[0049]本申请还提供了一种内容获取方法,包括:
[0050]获取目标需求;
[0051]针对所述目标需求,在目标内容资源池中获得包含与所述目标需求对应的目标内容的候选页面;
[0052]按段落拆分所述候选页面,根据拆分出的段落与所述目标需求的相关程度获得包含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种题目数据的生成方法,其特征在于,包括:获取目标题目;针对所述目标题目,在目标数据资源池中获得包含所述目标题目的答案的候选页面;按段落拆分所述候选页面,根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落;从所述候选段落中抽取相关片段作为所述目标题目的答案
。2.
根据权利要求1所述的方法,其特征在于,所述在目标数据资源池中获得包含所述目标题目的答案的候选页面,包括:在所述目标数据资源池中进行检索;将检索到的资源页面以及所述目标题目输入至第一神经网络进行分类,获得与所述目标题目符合答案匹配要求的资源页面作为所述候选页面
。3.
根据权利要求1所述的方法,其特征在于,所述在目标数据资源池中获得包含所述目标题目的答案的候选页面,包括:在所述目标数据资源池中进行检索;将检索到的资源页面以及所述目标题目输入至第一神经网络进行分类,获得与所述目标题目符合答案匹配要求的资源页面作为第一候选页面;将检索到的资源页面以及所述目标题目输入至第二神经网络进行分类,获得包含与所述目标题目符合答案匹配要求的资源页面作为第二候选页面;其中,所述第二神经网络是与所述第一神经网络具有不同基础架构的神经网络;将所述第一候选页面,与所述第二候选页面进行融合,获得所述候选页面
。4.
根据权利要求1所述的方法,其特征在于,所述根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落,包括:将拆分出的每个段落与所述目标题目输入至第三神经网络,获得两者的相关性得分;基于所述相关性得分对所有段落进行排序,根据预定规则,选择相应排序对应的段落作为包含所述答案的候选段落
。5.
根据权利要求1所述的方法,其特征在于,所述根据拆分出的段落与所述目标题目的相关程度获得包含所述答案的候选段落,包括:将拆分出的每个段落与所述目标题目输入至第三神经网络,获得两者的第一相关性得分;将拆分出的每个段落与所述目标题目输入至第四神经网络,获得两者的第二相关性得分;将所述第一相关性得分与所述第二相关性得分进行融合,获得第三相关性得分;基于所述第三相关性得分对所有段落进行排序,根据预定规则,选择相应排序对应的段落作为包含所述答案的候选段落
。6.
根据权利要求1所述的方法,其特征在于,所述从所述候选段落中抽取相关片段作为所述目标题目的答案,包括:将所述候选段落和所述题目输入至第五神经网络,根据所述第五神经网络的匹配结果,抽取所述候选段落的相关片段作为所述目标题目的答案
。7.
根据权利要求2‑6任一项所述的方法,其特征在于,所述第一神经网络

第二神经网


第三神经网络

第四神经网络

第五神经网络为经过预训练的深度神经网络,所述预训练包括:将题库中的填空类题目作为训练样本,对所述第一神经网络

第二神经网络

第三神经网络

第四神经网络

第五神经网络分别进行无监督学习训练
。8.
根据权利要求2‑3任一所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:鲍力程彩虹
申请(专利权)人:优视科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1