【技术实现步骤摘要】
一种面向试题知识点分类的层次化语义匹配方法
[0001]本专利技术涉及自然语言处理中的层次化文本分类领域,具体涉及一种面向试题知识点分类的层次化语义匹配方法。
技术介绍
[0002]层次化文本分类的任务是,给定一段文本,通过对文本进行分析与建模,给出由通用概念到细粒度概念的分类标签。应用在教育领域,以试题知识点分类为代表,可以预先构建包含大知识领域、小知识考点等的知识点层次化结构。给定若干试题,该任务可以针对性获得试题对应的知识点考察标签。本研究任务可以对电子化试题库进行智能分析与归类,是试题分析、试题智能推荐等场景的基础。在如今智能教育迅速发展的背景下,试题知识点分类有着重要的实践和应用价值。
[0003]在试题知识点分类方法方面,国内外使用的模型方法可分为通用文本分类方法和层次感知的文本分类方法。在通用文本分类方法中,已有的中文专利“谭春燕;秦钰森.知识点推荐方法、装置、终端及计算机可读存储介质[P].中国专利技术专利,CN113590956A,2021
‑
11
‑
02”使用通 ...
【技术保护点】
【技术特征摘要】
1.一种面向试题知识点分类的层次化语义匹配方法,该方法包括以下步骤:S1、根据试题知识点的层次化结构,将知识点标签l=(l1,l2,...l
K
)(K为知识点标签的数量)构建为试题知识点层次化结构。标签与标签间的连边值表示为e=(e
l1
‑
l2
,e
l1
‑
l3
,...e
l1
‑
lK
),若在试题知识点层次化结构中,两个知识点标签存在联系,则连边值为1,不存在联系则连边值为0。S2、将试题文本切分为句子s=(s1,s2,...s
T
)(T为分句后的句子数量),每个句子切分为词w=(w1,w2,...w
S
)(S为每个句子的词语数量)。将文本句子输入特征提取器BERT(基于Transformer的双向编码器表示)m1中,提取试题文本的向量表示Transformer的双向编码器表示)m1中,提取试题文本的向量表示为特征向量,上标i为向量维度。S3、基于S1中的知识点标签l和标签间连边e,我们可以构建描述层次化结构的有向图G=(V,E)。其中有向图G的结点为V,由知识点标签l构建。有向图G的结点连边E由标签间连边e构建。为了提取体现层次化结构的特征向量,我们首先将知识点标签l的文本转换为向量表示,然后将有向图G输入特征提取器GCN(图卷积神经网络)m2中,提取知识点层次化语义向量表示向量表示为特征向量,上标j为向量维度。S4、基于试题文本的向量表示H
t
和知识点层次化语义向量H
l
,使用MLP(多层感知机)神经网络将H
t
和H
l
映射到联合空间中。联合空间中,试题文本的向量表示为知识点层次化语义向量为上标k为联合空间中的向量维度。S5、基于S4中获得的联合空间向量表示,结合知识点层次化结构特定进行匹配学习。试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。首先,使用联合空间损失函数对联合空间向量表示进行约束。具体而言,该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。其次,使用边缘损失(Margin Loss)函数建模试题文本向量表示与其他知识点向量表示的关系。具体而言,除了上述与试题最切合的小知识点,试题文本向量应该与知识大领域的标签基本匹配,与无关的知识点完全不匹配。S6、本发明方法在神经网络训练时,基于所述联合空间损失函数、边缘损失(Margin Loss)函数进行梯度反向传播训练,获得一个有较好性能的知识点分类模型。S7、基于以上方法训练神经网络模型后,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干...
【专利技术属性】
技术研发人员:郑彦魁,马震远,马千里,陈海斌,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。