基于预训练模型与概念知识图谱的相似选择题判别方法技术

技术编号:38074068 阅读:10 留言:0更新日期:2023-07-06 08:42
基于预训练模型与概念知识图谱的相似选择题判别方法,包括以下步骤,S10、给定一组以文本形式呈现的选择题,基于学科知识图谱,提取选择题涉及学科知识图谱中的学科概念;S20、基于学科知识图谱中的学科概念及学科概念的关系,得到和问题相关的知识库子图;S30、利用分隔符连接题目的题干与选项,将待判别题目组的题目分别扁平化为题目文本序列;S40、预训练语言模型将扁平化后的题目文本序列转化并输出为语义向量表示;S50、基于S20中得到的知识库子图,通过RGCN的图卷积网络结构,构建图卷积网络;S60、结合文本语义表示与知识图语义表示,利用深度神经网络得到输入选择题间的相似性判别分数;实现自动分辨题库中的相似试题的效果。效果。效果。

【技术实现步骤摘要】
基于预训练模型与概念知识图谱的相似选择题判别方法


[0001]本专利技术属于自然语言问答与智能教育领域,涉及一种基于预训练语言模型与概念知识图谱的相似题目判别方法。该判别方法能够利用预训练语言模型与领域知识图谱,捕获试题之间的语义及逻辑关联,并结合深度神经网络的表示建模,从而使得机器可以识别相似问题组,在自动组卷,自适应测评等智能教育场景下取得应用价值。

技术介绍

[0002]随着机器学习和人工智能技术的发展,机器在众多自然语言处理任务上取得了出色表现,并且在很多场景下取得了令人瞩目的应用成果,如会场同传、智能客服等。智慧考试是人工智能的在教育领域的一项重要应用。智能系统可以自动收集、整理、命制考题,并根据学生需求,完成自动组卷,实现因人施考的自适应测评。
[0003]然而,供自动组卷使用的试题库中,存在相似的试题。有的是对同一组知识点的重复考察,有的试题内容构成了其它试题的提示或答案。一组相似试题在一份试卷中同时出现,会削弱生成的试卷难度,阻碍对考生学习成果的有效评估。为了避免相似试题在一份试卷中同时出现,传统的解决方案是人工为每道试题标注知识点,结合人工制定的互斥试题集与组卷策略来避免相似试题在一套试卷中共现。需要人工两两对比试题内容,工作量较大,容易出现遗漏。因此,如何自动判别相似问题,成为了一项重要的技术需求。
[0004]试题通常由自然语言表述,具有灵活多变的特点。预训练语言模型技术利用大规模无标注数据和自监督学习任务可以较好的建模文本的语义特征。然而,由于试题的专业性,相似问题之间的逻辑往往体现在数据概念间的深层逻辑层面,难以被语义特征建模技术所捕获。因此,为了使模型在知识密集的具体学科问题建模上获得较好的表现,经常引入术语库、知识库等外部知识和证据辅助预训练模型建模。

技术实现思路

[0005]本专利技术提供了一种基于预训练语言模型与概念知识图谱的深度神经网络,结合文本语义特征与试题概念间的深层逻辑关联,从而识别试题库中的相似(考察知识点及考察视角基本相同)选择题的方法。
[0006]为了达到上述目的,本专利技术采用的技术方案为:
[0007]基于预训练模型与概念知识图谱的相似选择题判别方法,包括以下步骤,
[0008]S10、给定一组以文本形式呈现的选择题,基于学科知识图谱,提取选择题涉及学科知识图谱中的学科概念;
[0009]S20、基于学科知识图谱中的学科概念及学科概念的关系,得到和问题相关的知识库子图;
[0010]S30、利用分隔符连接题目的题干与选项,将待判别题目组的题目分别扁平化为题目文本序列;
[0011]S40、预训练语言模型将扁平化后的题目文本序列转化并输出为语义向量表示;
[0012]S50、基于S20中得到的知识库子图,通过RGCN的图卷积网络结构,构建图卷积网络;
[0013]S60、结合文本语义表示与知识图语义表示,利用深度神经网络得到输入选择题间的相似性判别分数;
[0014]文本语义表示与知识图语义表示结合之后,利用全连接网络等交互机制,再通过sigmoid激活函数得到输入选择题间的相似性判别分数值;根据分值大小来衡量题目之间的相似性。
[0015]进一步,基于选择题和对应的学科知识图谱,利用实体识别与实体链接方法,提取选择题中的实体提及,并由此组成实体提及集合,提取上述实体提及对应的学科知识图谱中实体并由此组成实体节点集合。
[0016]进一步,基于实体节点集合以及其在学科知识图谱中的一阶邻域范围内的节点汇集成节点集;以该节点集中节点间的关系为基础,构建问题相关的知识图谱子图的关系集,与实体节点集合一并构成的问题相关的知识库子图。
[0017]进一步,对于S30具体,预训练语言模型利用分隔符将题目的题干文本与选项文本顺序连接,从而将待判别题目扁平化为一组文本序列。
[0018]进一步,对于S40具体为,在进行计算过程中,将两个待判别的题目文本序列衔接后输入预训练语言模型,或者分别独立利用预训练语言模型进行计算;
[0019]在预训练语言模型中,针对两个输入题目文本序列,引入注意力遮掩机制,进而对输入基本文本单元加入位置编码;具体而言,例如针对扁平化的问题序列,其中每个元素为输入的基本文本单元;对与的位置编码相同,以表明其对等的选项的地位。
[0020]进一步,针对S50具体,基于得到的题目相关的知识子图,通过RGCN的图卷积网络结构,构建深层神经网络;该神经网络中节点的表示利用预训练语言模型的编码结果进行初始化;具体而言,对于在题目中出现的实体节点,利用其实体提及中的文本单元在预训练语言模型编码结果中的向量表示,通过池化操作,得到输入的节点表示;对于未在题目文本出现的实体,则采用随机初始化;经过若干层图卷积网络计算,得到充分交互之后的节点表示;最终通过一层注意力机制,汇总特征得到知识逻辑层面的特征表示向量。
[0021]本专利技术的有益效果为:
[0022]1、本专利技术对于一组题库中的选择题,能够结合预训练语言模型与知识图卷积网络,结合字面含义与逻辑知识关联,判断这一组题目之间的相似度,即是否以相似的角度考察相同的知识点,从而实现自动分辨题库中的相似试题的效果。
[0023]2、本专利技术中使用的预训练语言模型可以有效捕获文本的字面语义表示,所采用图位置编码机制根据选择题的结构特点,提高预训练模型的问题建模能力。
[0024]3、本专利技术中使用的基于学科领域知识库构建的知识子图可以有效把握问题中的相关概念及其关联,可以帮助模型更好地把握问题间的深层逻辑关系。本专利技术结合文本语义特征与试题概念间的深层逻辑关联,可以有效识别试题库中的相似(考察知识点及考察视角基本相同)选择题组。
附图说明
[0025]图1为本专利技术的方法的框架图;
[0026]图2为本专利技术中步骤S10与S20,即提取问题中的学科概念以构建问题相关知识库子图的过程示意图;
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]专利技术构思为:基于知识点提取与图神经网络的试题考点相似度检测方法,融合题面相似度与题目间的逻辑知识关联信息,构建基于深度神经网络技术的相似试题自动检测方案。从而判断两个试题是否适合出现在同一张试卷上。
[0029]如图1所示,为本专利技术实施例中的相似选择题判别方法的框架图;如图2所示,为本专利技术实施例中提取问题中的学科概念以构建问题相关知识库子图的过程示意图。基于预训练语言模型与概念知识图谱的相似题目判别方法的具体实施步骤,主要包括:
[0030]S10、给定一组(两道)以文本形式呈现的选择题(每道题包含问题和多个选项),基于学科知识图谱,提取选择题涉及学科知识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于预训练模型与概念知识图谱的相似选择题判别方法,其特征在于,包括以下步骤,S10、给定一组以文本形式呈现的选择题,基于学科知识图谱,提取选择题涉及学科知识图谱中的学科概念;S20、基于学科知识图谱中的学科概念及学科概念的关系,得到和问题相关的知识库子图;S30、利用分隔符连接题目的题干与选项,将待判别题目组的题目分别扁平化为题目文本序列;S40、预训练语言模型将扁平化后的题目文本序列转化并输出为语义向量表示;S50、基于S20中得到的知识库子图,通过RGCN的图卷积网络结构,构建图卷积网络;S60、结合文本语义表示与知识图语义表示,利用深度神经网络得到输入选择题间的相似性判别分数;文本语义表示与知识图语义表示结合之后,利用全连接网络等交互机制,再通过sigmoid激活函数得到输入选择题间的相似性判别分数值;根据分值大小来衡量题目之间的相似性。2.根据权利要求1所述的判别方法,其特征在于,基于选择题和对应的学科知识图谱,利用实体识别与实体链接方法,提取选择题中的实体提及,并由此组成实体提及集合,提取上述实体提及对应的学科知识图谱中实体并由此组成实体节点集合。3.根据权利要求1所述的判别方法,其特征在于,基于实体节点集合以及其在学科知识图谱中的一阶邻域范围内的节点汇集成节点集;以该节点集中节点间的关系为...

【专利技术属性】
技术研发人员:来雨轩安琪王艺丹王立王娇
申请(专利权)人:国家开放大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1