System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,特别涉及一种基于自然语言处理的知识点标注方法及系统。
技术介绍
1、现目前,离线学习平台已经成为人们获取知识的重要手段之一。传统的教育资源往往分散在不同的离线学习平台上,每个离线学习平台都有各自的学习材料和学习方法,这导致了知识点的表述存在差异,使得学习者在整合和对比不同来源的学习信息时面临挑战。因此,如何高效地整合多源学习材料,并提供更为系统化和连贯性的学习体验,是当前亟待解决的问题。
技术实现思路
1、为改善相关技术中存在的技术问题,本专利技术提供了一种基于自然语言处理的知识点标注方法及系统。
2、第一方面,本专利技术实施例提供了一种基于自然语言处理的知识点标注方法,应用于离线训练平台系统,所述方法包括:
3、获取第一离线学习平台预配文本中与第二离线学习平台预配文本中学习文本单元相匹配的标识词句之间的上下文推导特征;其中,所述第一离线学习平台预配文本和所述第二离线学习平台预配文本是在页面编号差异不大于设定差异门限的两个离线页面所提取出的不同的离线学习平台预配文本;
4、基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,其中,完成特征拼接的两标识词句表征学习资源中的同一标识词句;
5、基于完成特征拼接的标识词句所对应若干个学习文本单元在第一离线学习平台预配文本中的分布特征和在第二离线学习平台预配文本中的分布
6、基于所述完成特征拼接的标识词句的知识点联系特征和所述完成特征拼接的标识词句所对应的分类特征,生成知识点标注学习文本。
7、优选地,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
8、对于所述第一离线学习平台预配文本中的第一标识词句,基于所述第一标识词句所对应第一掩码识别结果的分布特征和所述第一标识词句所对应的上下文推导特征,确定所述第一掩码识别结果在第二离线学习平台预配文本中对应的掩码预测结果;
9、如果所述掩码预测结果中存在一个属于目标分类特征的第二标识词句所对应的第二掩码识别结果,则将所述第一离线学习平台预配文本中的第一标识词句与所述第二离线学习平台预配文本中的第二标识词句进行特征拼接;其中,所述第一标识词句所对应的分类特征为所述目标分类特征。
10、优选地,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
11、对于所述第一离线学习平台预配文本中的第一标识词句,基于所述第一标识词句所对应第一掩码识别结果的分布特征和所述第一标识词句所对应的上下文推导特征,确定所述第一掩码识别结果在第二离线学习平台预配文本中对应的掩码预测结果;
12、在所述第二离线学习平台预配文本中对所述掩码预测结果进行掩码尺寸调整;
13、若掩码尺寸调整后的掩码预测结果中存在一个属于目标分类特征的第二标识词句所对应的第二掩码识别结果,则将所述第一离线学习平台预配文本中的第一标识词句与所述第二离线学习平台预配文本中的第二标识词句进行特征拼接。
14、优选地,所述方法还包括:
15、如果所述第一离线学习平台预配文本中存在未完成特征拼接的第三标识词句,基于所述第三标识词句在所述第一离线学习平台预配文本中的文本块描述向量和所述第一离线学习平台预配文本中已特征拼接的至少一个第四标识词句相对于所述第三标识词句的文本知识逻辑向量,确定所述第三标识词句在所述第一离线学习平台预配文本中的全局文本描述向量;
16、基于未完成特征拼接的第五标识词句在原始离线学习平台预配文本中的文本块描述向量和所述原始离线学习平台预配文本中已特征拼接的第六标识词句相对于所述第五标识词句的文本知识逻辑向量,确定所述第五标识词句在所述原始离线学习平台预配文本中的全局文本描述向量;所述第五标识词句所对应的分类特征与所述第三标识词句所对应的分类特征相同;
17、基于所述第三标识词句在所述第一离线学习平台预配文本中的全局文本描述向量和所述第五标识词句在所述原始离线学习平台预配文本中的全局文本描述向量,确定所述第三标识词句与所述第五标识词句的共性评分;
18、如果所述共性评分大于共性评分门限,则将所述第一离线学习平台预配文本中的第三标识词句与所述原始离线学习平台预配文本中的第五标识词句进行特征拼接。
19、优选地,所述基于完成特征拼接的标识词句所对应若干个学习文本单元在第一离线学习平台预配文本中的分布特征和在第二离线学习平台预配文本中的分布特征,确定完成特征拼接的标识词句对应的知识点联系特征,包括:
20、基于完成特征拼接的标识词句对应的若干个学习文本单元在第一离线学习平台预配文本中的分布特征和在第二离线学习平台预配文本中的分布特征,确定知识概念更新特征;
21、基于所述知识概念更新特征,确定所述完成特征拼接的标识词句在第一离线学习平台预配文本所对应第一词向量空间中的第一相对分布特征,和所述完成特征拼接的标识词句在第二离线学习平台预配文本所对应第二词向量空间中的第二相对分布特征;
22、基于所述第一离线学习平台预配文本所对应页面状态与所述第二离线学习平台预配文本所对应页面状态之间的页面编号差异、所述第一相对分布特征和所述第二相对分布特征,确定所述完成特征拼接的标识词句对应的知识点联系特征。
23、优选地,所述基于所述第一离线学习平台预配文本所对应页面状态与所述第二离线学习平台预配文本所对应页面状态之间的页面编号差异、所述第一相对分布特征和所述第二相对分布特征,确定所述完成特征拼接的标识词句对应的知识点联系特征之前,所述方法还包括:
24、确定所述第一离线学习平台预配文本所关联的第一离线页面在所述第一离线学习平台预配文本所对应的离线学习任务下的第一文本内容输出状态,将所述第一文本内容输出状态作为所述第一离线学习平台预配文本对应的页面状态;
25、确定所述第二离线学习平台预配文本所关联的第二离线页面在所述第二离线学习平台预配文本所对应的离线学习任务下的第二文本内容输出状态,将所述第二文本内容输出状态作为所述第二离线学习平台预配文本对应的页面状态;
26、基于所述第一文本内容输出状态和所述第二文本内容输出状态,确定所述第一离线学习平台预配文本所对应页面状态与所述第二离线学习平台预配文本所对应页面状态之间的页面编号差异。
27、优选地,所述获取第一离线学习平台预配文本中与第二离线学习平台预配文本中学习文本单元相匹配的标识词句之间的上下文推导特征,包括:
28、基于第一离线本文档来自技高网...
【技术保护点】
1.一种基于自然语言处理的知识点标注方法,其特征在于,应用于离线训练平台系统,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
3.如权利要求1所述的方法,其特征在于,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
4.如权利要求2或3所述的方法,其特征在于,所述方法还包括:
5.如权利要求1所述的方法,其特征在于,所述基于完成特征拼接的标识词句所对应若干个学习文本单元在第一离线学习平台预配文本中的分布特征和在第二离线学习平台预配文本中的分布特征,确定完成特征拼接的标识词句对应的知识点联系特征,包括:
6.如权利要求1所述的方法,其特征在于,所述获取第一离线学习平台预配文本中与第二离线学习平台预配文本中学习文本单元相匹配的标识词句之间的
7.如权利要求1所述的方法,其特征在于,所述获取第一离线学习平台预配文本中与第二离线学习平台预配文本中学习文本单元相匹配的标识词句之间的上下文推导特征,包括:
8.如权利要求1所述的方法,其特征在于,所述第一离线学习平台预配文本和所述第二离线学习平台预配文本处于相同预配文本集;所述方法还包括:
9.如权利要求8所述的方法,其特征在于,所述第一离线学习平台预配文本和所述第二离线学习平台预配文本是从初始预配文本集中获取的;所述方法还包括:
10.一种离线训练平台系统,其特征在于,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-9任一项所述的方法。
...【技术特征摘要】
1.一种基于自然语言处理的知识点标注方法,其特征在于,应用于离线训练平台系统,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
3.如权利要求1所述的方法,其特征在于,所述基于学习文本单元相匹配的标识词句所对应的上下文推导特征,将所述第一离线学习平台预配文本中的标识词句与所述第二离线学习平台预配文本中的标识词句进行特征拼接,包括:
4.如权利要求2或3所述的方法,其特征在于,所述方法还包括:
5.如权利要求1所述的方法,其特征在于,所述基于完成特征拼接的标识词句所对应若干个学习文本单元在第一离线学习平台预配文本中的分布特征和在第二离线学习平台预配文本中的分布特征,确定完成特征拼接的标识词句对应的知识点联系特征,包括:...
【专利技术属性】
技术研发人员:黎国权,朱晖,
申请(专利权)人:广东信聚丰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。