难度-知识点-解题思路的智能多标签标注方法及系统技术方案

技术编号:39825561 阅读:11 留言:0更新日期:2023-12-29 16:00
本发明专利技术属于个性化学习技术领域,公开了一种基于多标签的难度

【技术实现步骤摘要】
难度

知识点

解题思路的智能多标签标注方法及系统


[0001]本专利技术属于个性化学习
,尤其涉及一种基于多标签的难度

知识点

解题思路试题标注方法及系统


技术介绍

[0002]目前,在云计算

人工智能等技术的发展与推动下,智慧教育正逐渐演变为当今技术环境下的教育信息化新典范,为实现因材施教提供了巨大机遇

个性化试题推荐作为在线学习教育改革中一个非常重要的研究议题,能够利用学习者的个体特征

学科水平

学习历史

认知风格等信息,进行更精准的试题匹配与推送,从而提高学习者的参与度与知识掌握水平

一般,个性化试题推荐系统由学习者建模

试题建模和推荐算法三部分组成

其中,试题建模包括对试题的语义表示和知识解析,需要从其关联的知识点

难度

区分度等多方面进行综合建模

[0003]目前,较为主流的应用于试题建模的试题文本分类方法,可以分为基于卷积神经网络的试题文本分类方法与基于循环神经网络的试题文本分类方法两种

其中,前者通过不同大小卷积核的卷积层,能更好地获取试题文本不同层次的局部特征,并利用池化层来提取更重要的特征,而其全连接层权值共享的方式能提升模型鲁棒性,从而对试题进行有效建模

然而当应用于多标签任务时,以上两种试题文本分类方法的准确性和稳定性仍有很大的提升空间

[0004]由于在本专利技术面对的任务中,基于卷积神经网络的试题文本分类方法的表现优于基于循环神经网络的试题文本分类方法,因此下面对现有技术的讨论以分析基于卷积神经网络的试题文本分类方法为主,并称其为传统试题文本分类方法

[0005]通过上述分析,现有技术存在的问题及缺陷为:
[0006](1)
传统试题文本分类方法中的深度算法需要大量的训练数据,难以适用于中小规模的试题数据;
[0007](2)
传统试题文本分类方法在多标签任务中难以处理分类数众多的情况,导致模型准确度很低;
[0008](3)
传统试题文本分类方法在试题嵌入时仅考虑单独使用
one

hot、TF

IDF
或词向量方法中的某一种,并未充分利用试题的文本信息以对试题建模


技术实现思路

[0009]针对现有技术存在的问题,本专利技术提供了一种基于多标签的难度

知识点

解题思路试题标注方法及系统

[0010]本专利技术是这样实现的,一种基于多标签的难度

知识点

解题思路试题标注系统,所述基于多标签的难度

知识点

解题思路试题标注方法包括:
[0011]采集试题数据,并收集试题包括题干

标准答案

解析在内的文本信息,分别基于试题的难度

知识点与解题思路对试题进行标注,以试题文本为特征,以难度

知识点

解题
思路为标签,构建数据集;对包含公式在内的试题文本进行预处理,分别使用
TF

IDF

Word2vec
方法进行嵌入表示,并融合得到多层次试题文本嵌入特征;构建基于深度神经网络的试题标注模型,对试题的难度进行多分类预测,并实现对于试题知识点与解题思路的多标签分类

[0012]进一步,所述试题的难度标签,包含三个等级,为简单

中等与困难,用离散值
1、5、9
来表示;所述试题的知识点对应于事先归纳好的知识概念体系,被分为四个层级,层级之间的知识点存在一对多的父子依赖关系;所述试题的解题思路是利用底层知识点解决问题的标准方法提示;
[0013]利用试题文本为特征,利用难度

知识点

解题思路为标签,对部分缺失解题思路或知识点标注的试题进行筛除,只取用其中存在解题思路标注的试题构建所述数据集,并划分训练集和测试集

[0014]进一步,所述对包含公式在内的试题文本进行预处理的具体过程包括:
[0015]初步对文本进行预处理,即利用正则表达式去除试题文本中包含的超链接,并替换3个及以上的连续空格为字符


,接着将试题文本中的
latex
字符和
html
字符利用查找替换算法修改为特定的中文释义;
[0016]对试题文本进行分词处理,并去除停用词

[0017]进一步,所述分别使用
TF

IDF

Word2vec
方法进行句嵌入表示,并融合得到多层次试题文本嵌入特征的过程包括:
[0018]基于
TF

IDF
算法,在训练集的文本上进行训练,得到训练集和测试集分别的基于词频的句嵌入表示
x
tf

idf

[0019][0020]式中,
N
d

t
是词
t
在文档
d
中出现的总次数,
N
d
是文档
d
中全部词汇出现的总次数,
M
是所有文档总数量,
M
t
表示出现过词语
t
的文档数;
[0021]用词向量模型
Word2vec
中的
CBOW
算法处理试题,根据词的上下文对目标词进行预测,获得训练集与测试集试题词级别的嵌入表示,而后采用平均池化操作并归一化,得到训练集与测试集分别的基于词向量的句嵌入表示
x
w2v

[0022]使用向量拼接方法对
x
tf

idf

x
w2v
进行特征融合,得到多层次的试题文本嵌入特征:
[0023][0024]进一步,所述构建基于深度神经网络的试题标注模型,对试题的难度进行多分类预测的过程包括:
[0025]设计由两层隐藏层组成的深度神经网络,其中隐藏单元个数均为
100
,每层隐藏层的输出均通过激活函数
φ
进行变换:
[0026]H
diff

φ
(W2·
φ
(W1·
x
text
...

【技术保护点】

【技术特征摘要】
1.
一种基于多标签的难度

知识点

解题思路试题标注方法,其特征在于,包括:构建难度

知识点

解题思路的试题标注体系;采集试题数据,并收集试题包括题干

标准答案

解析在内的文本信息,分别基于试题的难度

知识点与解题思路对试题进行标注,以试题文本为特征,以难度

知识点

解题思路为标签,构建数据集;对包含公式在内的试题文本进行预处理,分别使用
TF

IDF

Word2vec
方法进行嵌入表示,并融合得到多层次试题文本嵌入特征;构建基于深度神经网络的试题标注模型,对试题的难度进行多分类预测,并实现对于试题知识点与解题思路的多标签分类
。2.
根据权利要求1所述基于多标签的难度

知识点

解题思路试题标注方法,其特征在于,所述试题的难度标签,包含三个等级,为简单

中等与困难,用离散值
1、5、9
来表示;所述试题的知识点对应于事先归纳好的知识概念体系,被分为四个层级,层级之间的知识点存在一对多的父子依赖关系;所述试题的解题思路是利用底层知识点解决问题的标准方法提示;利用试题文本为特征,利用难度

知识点

解题思路为标签,对部分缺失解题思路或知识点标注的试题进行筛除,只取用其中存在解题思路标注的试题构建所述数据集,并划分训练集和测试集
。3.
根据权利要求1所述基于多标签的难度

知识点

解题思路试题标注方法,其特征在于,所述对包含公式在内的试题文本进行预处理的过程包括:初步对文本进行预处理,即利用正则表达式去除试题文本中包含的超链接,并替换3个及以上的连续空格为字符
\t
,接着将试题文本中的
latex
字符和
html
字符利用查找替换算法修改为特定的中文释义;对试题文本进行分词处理,并去除停用词
。4.
根据权利要求1所述基于多标签的难度

知识点

解题思路试题标注方法,其特征在于,所述分别使用
TF

IDF

Word2vec
方法进行句嵌入表示,并融合得到多层次试题文本嵌入特征的过程包括:基于
TF

IDF
算法,在训练集的文本上进行训练,得到训练集和测试集分别的基于词频的句嵌入表示
x
tf

idf
:式中,
N
d

t
是词
t
在文档
d
中出现的总次数,
N
d
是文档
d
中全部词汇出现的总次数,
M
是所有文档总数量,
M
t
表示出现过词语
t
的文档数;用词向量模型
Word2vec
中的
CBOW
算法处理试题,根据词的上下文对目标词进行预测,获得训练集与测试集试题词级别的嵌入表示,而后采用平均池化操作并归一化,得到训练集与测试集分别的基于词向量的句嵌入表示
x
w2v
;使用向量拼接方法对
x
tf

idf

x
w2v
进行特征融合,得到多层次的试题文本嵌入特征:
5.
根据权利要求1所述基于多标签的难度

知识点

解题思路试题标注方法,其特征在于,所述构建基于深度神经网络的试题标注模型,对试题的难度进行多分类预测的过程包括:
设计由两层隐藏层组成的深度神经网络,其中隐藏单元个数均为
100
,...

【专利技术属性】
技术研发人员:左明章王志锋陆子欣董石罗恒姚璜田元陈迪
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1