一种知识点自动标注建模方法及系统技术方案

技术编号:32566337 阅读:58 留言:0更新日期:2022-03-09 16:52
本发明专利技术公开了一种知识点自动标注建模方法及系统,其中,标注方法包括统一处理步骤、本体试题获取步骤、输入样本获取步骤、模型训练步骤和模型获得步骤。本发明专利技术对统一预训练语言模型UniLM进行训练得到知识点自动标注模型,该模型在提取丰富的数学试题文本语义信息的前提下,能够考虑到标签之间的关联关系,高效的完成小学几何试题知识点的预测,提高了知识点自动标注的可信度;本发明专利技术提出基于匹配模板的实体识别和本体替换方法,以缓解小学几何试题文本在模型训练中的数据稀疏问题;本发明专利技术对于试题中包含的所有的知识点标签进行了全排列处理,以避免知识点标签生成顺序的不一致造成训练过程中的错误反馈。成训练过程中的错误反馈。成训练过程中的错误反馈。

【技术实现步骤摘要】
一种知识点自动标注建模方法及系统


[0001]本专利技术属于智慧教育资源知识标注领域,更具体地,涉及一种知识点自动标注建模方法及系统。

技术介绍

[0002]数学试题知识点自动标注的主要任务是根据数学试题及解答文本,预测出试题所属的知识点,该任务在自然语言处理领域属于文本多标签分类任务,并且针对数学试题的特殊领域属性,需要进行一定的文本处理。在各个学科领域,试题资源占主导,为能给每个学生以更合适的个性化学习方案,对试题资源建立一个良好的索引结构显得尤为重要。这就需要使用知识点自动标注技术对试题进行自动标注,使得试题资源能够合理地标签化,进而规模化为对海量级别试题资源进行的自动标注任务,对实现智能教学系统中基于试题的认知诊断以及试题个性化自动推荐具有重要作用。
[0003]目前最广泛使用的标注方法是人工手动标注,手动标注主要通过聘请专家来对资源进行标注,虽然标注结果都较为准确,但这种方式需要大量的人力投入,在标签的一致性、可信度和后期的维护更新等问题上也都存在一定局限,这使得智能教学系统依旧不能脱离以人工成果为基础的运转,也就意味着教育技术不能从根本上变得智能。
[0004]当前也有一些知识点自动标注方法通过采用自然语言处理领域通用的分类模型来对试题资源进行标签分类。然而,通用的分类模型主要聚焦于算法的实现和改进,缺乏了对领域知识的融合,忽视了数学学科的特点,具体地,它们缺乏对数学试题的文本特征和语义信息的提取和研究;另外,大多数现有的分类模型都是基于二分类模型的,而数学试题往往与多个且数量不定的知识点标签相关联,标签与标签之间也有一定的关联,现有的大多数分类模型很难在捕获试题语义信息的同时考虑标签之间的联系,并且已有的知识点自动标注方法也很少关注文本多标签分类。
[0005]对于小学数学几何试题自动标注任务,考虑到试题常常会与多个知识点标签相关联,知识点标签往往比较固定统一,因此最常见的就是将自动标注任务视作多标签多分类任务。在处理多标签分类任务时,已有的技术大多是采用循环神经网络RNN一类的深度学习模型,但是这一类模型并不能很好的提取数学试题的用于做分类用的语义信息,所以需要找到能更好提取试题文本语义等信息的神经网络模型,这也是实现知识点自动标注技术的一大突破点。
[0006]为了便于理解本专利技术,以下对有关术语和相关概念进行解释:
[0007]本体:本专利技术中的本体指的是小学几何概念中的本体,具体为:小学数学几何概念中的数学对象的总称,例如:三角形、四边形、线、边等。
[0008]实体:本专利技术中的实体指的是小学几何试题中的实体,具体为:小学数学几何概念中的数学对象在数学试题文本中的具体表达名称,例如:三角形ABC,边AC、角A等。
[0009]本体库:由小学几何知识体系中的本体组成,包括核心本体和属性本体,核心本体为不能够作为其他本体的属性的本体,如三角形、四边形等;属性本体为能够作为其他本体
的属性的本体,如线、边等;

技术实现思路

[0010]针对现有技术的缺陷,本专利技术的目的在于提供一种知识点自动标注建模方法及系统,旨在解决对小学数学几何试题进行知识点自动标注的问题。
[0011]为实现上述目的,本专利技术提供了一种知识点自动标注建模方法包括以下步骤:
[0012](1)统一处理步骤:
[0013]对初始试题集中的所有知识点加以知识点标签,所有的知识点标签组成知识点集;所述初始试题集由小学几何试题组成;
[0014]对于初始试题集中的每个试题,将其包含的所有的知识点标签进行全排列,对每一种知识点标签排列方式生成其对应的有序集合,所有的有序集合组成该试题的标签组集合;所有试题的标签组集合组成标签组总集;
[0015](2)本体试题获取步骤:
[0016]对所述初始试题集中的每个试题,根据匹配模板,获得其对应的本体试题;所有试题的本体试题组成本体试题集;
[0017]所述匹配模板由本体库中的所有本体及其对应的正则表达式和本体标识符组成;
[0018](3)输入样本获取步骤:
[0019]根据所述本体试题集和所述标签组总集,获得统一预训练语言模型的输入样本;
[0020](4)模型训练步骤:
[0021]将所述输入样本输入到统一预训练语言模型中,并按设定的轮数epoch和批输入量batch_size进行训练;每一轮训练结束之后得到一个该轮训练的标注模型;
[0022](5)模型获得步骤:
[0023]根据所有的所述标注模型,获得知识点自动标注模型。
[0024]优选地,所述本体试题获取步骤包括以下子步骤:
[0025](1)实体识别子步骤:
[0026]对所述初始试题集中每个试题的每个实体,在所述匹配模板中查找与该实体相匹配的正则表达式,匹配成功的正则表达式对应的本体为该实体对应的本体;
[0027]对所有的实体进行编号操作,所述编号操作的目的是使得下述同一试题的不同实体的本体标识互不相同;
[0028](2)本体替换子步骤:
[0029]根据两个实体中出现的重复字符,来确定其对应的两个本体之间的属性关系;
[0030]将每个实体替换为对应的本体的本体标识,核心本体的本体标识由本体标识符和对应的实体的编号组成;属性本体的本体标识依次由其所属的核心本体的本体标识符、该属性本体的本体标识符和该属性本体对应的实体的编号组成。
[0031]优选地,所述输入样本获取步骤包括以下子步骤:
[0032](1)数据集划分子步骤:
[0033]将所述本体试题集按设定的比例划分为训练集和测试集;
[0034]在所述标签组总集中查找所述训练集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述训练集中;
[0035]在所述标签组总集中查找所述测试集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述测试集中;
[0036](2)分词子步骤:
[0037]使用python分词工具对所述训练集中的所有的本体试题进行分词,得到一个分词词典;
[0038](3)短文本替换子步骤:
[0039]在python分词工具自带的词典中查找得到不属于所述分词词典的多个互不相同的词,组成短文本集,所述短文本集与知识点集里的元素总数相等;
[0040]建立从所述短文本集到所述知识点集的短文本映射:将所述短文本集中的所有元素随机映射到所述知识点集里的所有元素;所述短文本映射为满映射;
[0041]以所述训练集中的每个标签组集合为原像集,根据所述短文本映射,得到一个子映射,并将其像集中的每个像依次用至少一个连接符连接起来,形成一个标签集合文本;
[0042](4)拼接子步骤:
[0043]对所述训练集中的每个本体试题,依次将该本体试题和其对应的所有标签集合文本进行头尾拼接得到单个样本;在拼接时需要在本体试题的头部增加头部标记,在本体试题的尾本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识点自动标注建模方法,其特征在于,包括以下步骤:(1)统一处理步骤:对初始试题集中的所有知识点加以知识点标签,所有的知识点标签组成知识点集;所述初始试题集由小学几何试题组成;对于初始试题集中的每个试题,将其包含的所有的知识点标签进行全排列,对每一种知识点标签排列方式生成其对应的有序集合,所有的有序集合组成该试题的标签组集合;所有试题的标签组集合组成标签组总集;(2)本体试题获取步骤:对所述初始试题集中的每个试题,根据匹配模板,获得其对应的本体试题;所有试题的本体试题组成本体试题集;所述匹配模板由本体库中的所有本体及其对应的正则表达式和本体标识符组成;(3)输入样本获取步骤:根据所述本体试题集和所述标签组总集,获得统一预训练语言模型的输入样本;(4)模型训练步骤:将所述输入样本输入到统一预训练语言模型中,并按设定的轮数epoch和批输入量batch_size进行训练;每一轮训练结束之后得到一个该轮训练的标注模型;(5)模型获得步骤:根据所有的所述标注模型,获得知识点自动标注模型。2.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述本体试题获取步骤包括以下子步骤:(1)实体识别子步骤:对所述初始试题集中每个试题的每个实体,在所述匹配模板中查找与该实体相匹配的正则表达式,匹配成功的正则表达式对应的本体为该实体对应的本体;对所有的实体进行编号操作,所述编号操作的目的是使得下述同一试题的不同实体的本体标识互不相同;(2)本体替换子步骤:根据两个实体中出现的重复字符,来确定其对应的两个本体之间的属性关系;将每个实体替换为对应的本体的本体标识,核心本体的本体标识由本体标识符和对应的实体的编号组成;属性本体的本体标识依次由其所属的核心本体的本体标识符、该属性本体的本体标识符和该属性本体对应的实体的编号组成。3.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述输入样本获取步骤包括以下子步骤:(1)数据集划分子步骤:将所述本体试题集按设定的比例划分为训练集和测试集;在所述标签组总集中查找所述训练集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述训练集中;在所述标签组总集中查找所述测试集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述测试集中;(2)分词子步骤:
使用python分词工具对所述训练集中的所有的本体试题进行分词,得到一个分词词典;(3)短文本替换子步骤:在python分词工具自带的词典中查找得到不属于所述分词词典的多个互不相同的词,组成短文本集,所述短文本集与知识点集里的元素总数相等;建立从所述短文本集到所述知识点集的短文本映射:将所述短文本集中的所有元素随机映射到所述知识点集里的所有元素;所述短文本映射为满映射;以所述训练集中的每个标签组集合为原像集,根据所述短文本映射,得到一个子映射,并将其像集中的每个像依次用至少一个连接符连接起来,形成一个标签集合文本;(4)拼接子步骤:对所述训练集中的每个本体试题,依次将该本体试题和其对应的所有标签集合文本进行头尾拼接得到单个样本;在拼接时需要在本体试题的头部增加头部标记,在本体试题的尾部增加尾部标记,在标签集合文本的尾部增加尾部标记;所述训练集的所有样本组成所述输入样本。4.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述模型训练步骤的具体过程为:将所述输入样本输入到统一预训练语言模型中按设定的轮数epoch和批输入量batch_size进行训练;在每一轮训练中,使用bert预训练模型和seq

to

seq掩码方式进行微调训练,并使用优化器Adam不断更新统一预训练语言模型的超参数直到交叉熵损失趋于稳定值,此时得到该轮训练的标注模型。5.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述模型获得步骤的具体过程为:将所述测试集依次输入所有的所述标注模型,统计每个标注模型输出的试题预测知识点标签与数学试题真实知识点标签,并以此计算每个标注模型的汉明损失,选取汉明损失的值最小的标注模型作为知识点自动标注模型。6.一种知识点自动标注建模系统,其特征在于,包括:统一处理模块:用于对初始试题集中的所有知识点加以知识点标签,所有的知识点标签组成知识点集;所...

【专利技术属性】
技术研发人员:刘三女牙黄涛胡盛泽林柯柯杨华利王胜明杨宗凯
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1