一种基于教学场景中的知识点别名提取方法技术

技术编号:38831311 阅读:8 留言:0更新日期:2023-09-17 09:50
本发明专利技术涉及智能教学技术领域,尤其涉及一种基于教学场景中的知识点别名提取方法。步骤如下:构建别名词袋;提取学科下的所有概念集,采用概念集和概念集来源句子和片段的方式,反向查询每个概念集的别名候选集;对错误的名候选集进行清洗。本发明专利技术提供的一种基于教学场景中的知识点别名提取方法,用概念集提取技术、爬虫技术,基于整理的规则词袋和规则函数,流程简单,技术成本低,有效的解决了教育教学领域专业知识点别名查询的问题。域专业知识点别名查询的问题。域专业知识点别名查询的问题。

【技术实现步骤摘要】
一种基于教学场景中的知识点别名提取方法


[0001]本专利技术涉及智能教学
,尤其涉及一种基于教学场景中的知识点别名提取方法。

技术介绍

[0002]现有的别名获取系统主要集中在信息处理领域,用于人机交互快速理解用户的需求和意图,这种方式的别名获取主要采用NLP
的迁移学习来获取别名,技术流程复杂切依赖大量样本,耗时久、成本高,无法快速的适应智能教学场景,因为每个知识点都是专业的知识含义和独特的规律,要求别名的获取精准快速,现有技术的別名提取技术主要依赖模型训练得到宽泛的别名意图,无法适应教学场景中专有知识点别名提取场景,同时技术流程复杂、成本较高。
[0003]如专利(CN201510188142)公开了一种别名获取方法及装置,首先从大量的样本中构建NLP的别名预测模型,然后根据大模型推断出别名候选列表,给定目标领域内排序靠前的名称为输入词的别名,具体流程如图1,
[0004]如专利(CN202211325473.X)公开了一种基于电子书的全文知识点提取方法,解决了现有技术中无法确定关键词的边界以及对知识点进行准确性的提取,实际场景中效果不佳的技术问题;
[0005]为此,我们设计一种基于教学场景中的知识点别名提取方法,用于对上述技术问题提供另一种技术方案。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种基于教学场景中的知识点别名提取方法,解决上述
技术介绍
中提出的技术问题。
[0007]为了解决上述的技术问题,本专利技术采用了如下技术方案:
[0008]一种基于教学场景中的知识点别名提取方法,步骤如下:
[0009]构建别名词袋;
[0010]提取学科下的所有概念集,采用概念集和概念集来源句子和片段的方式,反向查询每个概念集的别名候选集;
[0011]对错误的名候选集进行清洗。
[0012]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述对错误的名候选集进行清洗,步骤如下:
[0013]构建停用词词袋,所述停用词词袋包括其他、其它无意义通用词汇;
[0014]采用停用词的方式清洗候选集,将“其余部分称为细胞质基质”提取到别名候选集“细胞质基质、其余部分”。
[0015]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述对错误的名候选集进行清洗,步骤如下:
[0016]通过嵌入来源别名校验,将“所有小叶着生叶轴顶端的为掌状复叶”,获取的概念集别名:“掌状、小叶着生叶轴顶端”,反向匹配发现不符合原有设定规则,正确的是“掌状复叶”,按照分词最大前向匹配算法,保留最大的重合度别名列表。
[0017]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述最大前向匹配算法为从前向后寻找在词典中存在的词,步骤如下:
[0018]S1:当假设单词的最大长度为5,词袋列表为:“我们”,“经常”,“常有”,“有意见”,“有意”,“意见”,“分歧”,“我”,“们”,“经”,“常”,“有”,“意”,“见”;
[0019]S2:最大前向匹配算法来划分例句:“我们经常有意见分歧”。
[0020]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述S2步骤中:
[0021]第一轮:取子串“我们经常有”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字;
[0022]第二轮:取子串“经常有意见”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字;
[0023]直到输入长度为0时,扫描终止,最大前向匹配算法得出的结果为:我们、经常、有意见、分歧。
[0024]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述第一轮中,取子串“我们经常有”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字,步骤如下:
[0025]“我们经常有”,扫描词典中的5字单词,没有匹配,子串长度减1变为“我们经常”;
[0026]“我们经常”,扫描词典中的4字单词,没有匹配,变为“我们经”;
[0027]“我们经”,扫描词典中的3字单词,没有匹配,变为“我们”;
[0028]“我们”,扫描词典中的2字单词,匹配成功,输出“我们”,输入变为“经常有意见分歧”。
[0029]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,所述第二轮中,取子串“经常有意见”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字,步骤如下:
[0030]“经常有意见”,扫描词典中的5字单词,没有匹配,子串长度减1变为“经常有意”;
[0031]“经常有意”,扫描词典中的4字单词,没有匹配,子串长度减1变为“经常有”;
[0032]“经常有”,扫描词典中的3字单词,没有匹配,子串长度减1变为“经常”;
[0033]“经常”,扫描词典中的2字单词,有匹配,输出“经常”,输入变为“有意见分歧”。
[0034]作为本专利技术提供的所述的一种基于教学场景中的知识点别名提取方法的一种优选实施方式,通过全网资源匹配进行逆向查询概念集和其别名列表来源,步骤如下:
[0035]①
、通过提取的概念集和教材的学科,基于所有概念集爬取的百科信息存库;
[0036]②
、通过别名词袋,解析百科的动态文本,获取概念集的别名列表;
[0037]③
、合并所述步骤

教材别名列表和百科别名列表;
[0038]④
、任意输入学科知识点取图数据库反向查询,直到无相邻节点或者相邻节点已存在结束。
[0039]可以毫无疑义的看出,通过本申请的上述的技术方案,必然可以解决本申请要解
决的技术问题。
[0040]同时,通过以上技术方案,本专利技术至少具备以下有益效果:
[0041]本专利技术提供的一种基于教学场景中的知识点别名提取方法,采用概念集提取技术、爬虫技术,基于整理的规则词袋和规则函数,流程简单,技术成本低,有效的解决了教育教学领域专业知识点别名查询的问题;基于精确规则匹配+百科信息反向查询补充的方式,可满足针对单一学科、跨学科等教学领域的专业知识点精确查询别名的需求。
附图说明
[0042]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为现有专利CN201510188142的流程图;
[0044]图2为本专利技术的流程图。
具体实施方式
[0045]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于教学场景中的知识点别名提取方法,其特征在于,步骤如下:构建别名词袋;提取学科下的所有概念集,采用概念集和概念集来源句子和片段的方式,反向查询每个概念集的别名候选集;对错误的名候选集进行清洗。2.根据权利要求1所述的一种基于教学场景中的知识点别名提取方法,其特征在于,所述对错误的名候选集进行清洗,步骤如下:构建停用词词袋,所述停用词词袋包括其他、其它无意义通用词汇;采用停用词的方式清洗候选集,将“其余部分称为细胞质基质”提取到别名候选集“细胞质基质、其余部分”。3.根据权利要求1所述的一种基于教学场景中的知识点别名提取方法,其特征在于,所述对错误的名候选集进行清洗,步骤如下:通过嵌入来源别名校验,将“所有小叶着生叶轴顶端的为掌状复叶”,获取的概念集别名:“掌状、小叶着生叶轴顶端”,反向匹配发现不符合原有设定规则,正确的是“掌状复叶”,按照分词最大前向匹配算法,保留最大的重合度别名列表。4.根据权利要求3所述的一种基于教学场景中的知识点别名提取方法,其特征在于,所述最大前向匹配算法为从前向后寻找在词典中存在的词,步骤如下:S1:当假设单词的最大长度为5,词袋列表为:“我们”,“经常”,“常有”,“有意见”,“有意”,“意见”,“分歧”,“我”,“们”,“经”,“常”,“有”,“意”,“见”;S2:最大前向匹配算法来划分例句:“我们经常有意见分歧”。5.根据权利要求4所述的一种基于教学场景中的知识点别名提取方法,其特征在于,所述S2步骤中:第一轮:取子串“我们经常有”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字;第二轮:取子串“经常有意见”,正向取词,如果匹配失败,每次去掉匹配字段最后面的一个字;直到输入长度为0时,扫描终止,最大前向匹配算法得出的结果为:我们、经常、有意见、...

【专利技术属性】
技术研发人员:王晖苗旭东
申请(专利权)人:上海卓越睿新数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1