【技术实现步骤摘要】
一种知识点自动标注建模方法及系统
[0001]本专利技术属于智慧教育资源知识标注领域,更具体地,涉及一种知识点自动标注建模方法及系统。
技术介绍
[0002]数学试题知识点自动标注的主要任务是根据数学试题及解答文本,预测出试题所属的知识点,该任务在自然语言处理领域属于文本多标签分类任务,并且针对数学试题的特殊领域属性,需要进行一定的文本处理。在各个学科领域,试题资源占主导,为能给每个学生以更合适的个性化学习方案,对试题资源建立一个良好的索引结构显得尤为重要。这就需要使用知识点自动标注技术对试题进行自动标注,使得试题资源能够合理地标签化,进而规模化为对海量级别试题资源进行的自动标注任务,对实现智能教学系统中基于试题的认知诊断以及试题个性化自动推荐具有重要作用。
[0003]目前最广泛使用的标注方法是人工手动标注,手动标注主要通过聘请专家来对资源进行标注,虽然标注结果都较为准确,但这种方式需要大量的人力投入,在标签的一致性、可信度和后期的维护更新等问题上也都存在一定局限,这使得智能教学系统依旧不能脱离以人工成果为基础的运转,也就意味着教育技术不能从根本上变得智能。
[0004]当前也有一些知识点自动标注方法通过采用自然语言处理领域通用的分类模型来对试题资源进行标签分类。然而,通用的分类模型主要聚焦于算法的实现和改进,缺乏了对领域知识的融合,忽视了数学学科的特点,具体地,它们缺乏对数学试题的文本特征和语义信息的提取和研究;另外,大多数现有的分类模型都是基于二分类模型的,而数学试题往往与多个且数量不定的知识点 ...
【技术保护点】
【技术特征摘要】
1.一种知识点自动标注建模方法,其特征在于,包括以下步骤:(1)统一处理步骤:对初始试题集中的所有知识点加以知识点标签,所有的知识点标签组成知识点集;所述初始试题集由小学几何试题组成;对于初始试题集中的每个试题,将其包含的所有的知识点标签进行全排列,对每一种知识点标签排列方式生成其对应的有序集合,所有的有序集合组成该试题的标签组集合;所有试题的标签组集合组成标签组总集;(2)本体试题获取步骤:对所述初始试题集中的每个试题,根据匹配模板,获得其对应的本体试题;所有试题的本体试题组成本体试题集;所述匹配模板由本体库中的所有本体及其对应的正则表达式和本体标识符组成;(3)输入样本获取步骤:根据所述本体试题集和所述标签组总集,获得统一预训练语言模型的输入样本;(4)模型训练步骤:将所述输入样本输入到统一预训练语言模型中,并按设定的轮数epoch和批输入量batch_size进行训练;每一轮训练结束之后得到一个该轮训练的标注模型;(5)模型获得步骤:根据所有的所述标注模型,获得知识点自动标注模型。2.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述本体试题获取步骤包括以下子步骤:(1)实体识别子步骤:对所述初始试题集中每个试题的每个实体,在所述匹配模板中查找与该实体相匹配的正则表达式,匹配成功的正则表达式对应的本体为该实体对应的本体;对所有的实体进行编号操作,所述编号操作的目的是使得下述同一试题的不同实体的本体标识互不相同;(2)本体替换子步骤:根据两个实体中出现的重复字符,来确定其对应的两个本体之间的属性关系;将每个实体替换为对应的本体的本体标识,核心本体的本体标识由本体标识符和对应的实体的编号组成;属性本体的本体标识依次由其所属的核心本体的本体标识符、该属性本体的本体标识符和该属性本体对应的实体的编号组成。3.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述输入样本获取步骤包括以下子步骤:(1)数据集划分子步骤:将所述本体试题集按设定的比例划分为训练集和测试集;在所述标签组总集中查找所述训练集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述训练集中;在所述标签组总集中查找所述测试集中的每个本体试题对应的标签组集合,并将查找到的标签组集合加入到所述测试集中;(2)分词子步骤:
使用python分词工具对所述训练集中的所有的本体试题进行分词,得到一个分词词典;(3)短文本替换子步骤:在python分词工具自带的词典中查找得到不属于所述分词词典的多个互不相同的词,组成短文本集,所述短文本集与知识点集里的元素总数相等;建立从所述短文本集到所述知识点集的短文本映射:将所述短文本集中的所有元素随机映射到所述知识点集里的所有元素;所述短文本映射为满映射;以所述训练集中的每个标签组集合为原像集,根据所述短文本映射,得到一个子映射,并将其像集中的每个像依次用至少一个连接符连接起来,形成一个标签集合文本;(4)拼接子步骤:对所述训练集中的每个本体试题,依次将该本体试题和其对应的所有标签集合文本进行头尾拼接得到单个样本;在拼接时需要在本体试题的头部增加头部标记,在本体试题的尾部增加尾部标记,在标签集合文本的尾部增加尾部标记;所述训练集的所有样本组成所述输入样本。4.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述模型训练步骤的具体过程为:将所述输入样本输入到统一预训练语言模型中按设定的轮数epoch和批输入量batch_size进行训练;在每一轮训练中,使用bert预训练模型和seq
‑
to
‑
seq掩码方式进行微调训练,并使用优化器Adam不断更新统一预训练语言模型的超参数直到交叉熵损失趋于稳定值,此时得到该轮训练的标注模型。5.如权利要求1所述的知识点自动标注建模方法,其特征在于,所述模型获得步骤的具体过程为:将所述测试集依次输入所有的所述标注模型,统计每个标注模型输出的试题预测知识点标签与数学试题真实知识点标签,并以此计算每个标注模型的汉明损失,选取汉明损失的值最小的标注模型作为知识点自动标注模型。6.一种知识点自动标注建模系统,其特征在于,包括:统一处理模块:用于对初始试题集中的所有知识点加以知识点标签,所有的知识点标签组成知识点集;所...
【专利技术属性】
技术研发人员:刘三女牙,黄涛,胡盛泽,林柯柯,杨华利,王胜明,杨宗凯,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。