一种术语及类型的二元组单步抽取方法及其模型技术

技术编号:38542945 阅读:19 留言:0更新日期:2023-08-19 17:10
本发明专利技术公开了一种术语及类型的二元组单步抽取方法及其模型,二元组单步抽取方法利用融合依存结构和边界损失完成术语及类型二元组的单步抽取,二元组单步抽取模型包括特征编码器、术语边界提取器、二元组抽取器、术语边界对齐模块四个大模块。本发明专利技术的优点:通过构建术语及类型链接表,将术语及类型抽取问题转化成了二元组抽取任务,统一了两个任务的抽取模型并实现一步到位的抽取效果,且实现了不同语境下术语所属类型不一致、同一术语对应多种类型等复杂场景下的术语抽取;本发明专利技术采用联合抽取术语及类型的方式,解决了术语抽取到类型分类这一过程存在的不可逆的误差传递问题。类这一过程存在的不可逆的误差传递问题。类这一过程存在的不可逆的误差传递问题。

【技术实现步骤摘要】
一种术语及类型的二元组单步抽取方法及其模型


[0001]本专利技术涉及一种术语抽取方法,具体为一种融合依存结构和边界损失的术语及类型的二元组单步抽取方法及其模型。

技术介绍

[0002]术语抽取是文本挖掘和信息抽取的关键步骤,对于机器翻译、信息检索、本体构建和知识图谱等领域至关重要。自从20世纪30年代初以来,研究者们就广泛探索了与术语相关的领域,从繁琐耗时的人工术语抽取方法到自动术语抽取模型的研究。近年来,随着在线智慧教育的兴起,对基础教育领域中的术语抽取方法进行了深入研究,并在多个学科领域取得了不错的成果。中学数学术语作为中学数学学科知识表示的核心,其准确的抽取将直接影响构建中学数学知识图谱的质量,同时术语所属的知识点类型获取也能丰富知识图谱中术语实体的信息。此外,随着学科知识库的不断充实和中学数学教材的更新迭代,网络数学学习资源也快速增长。因此,如何从海量的非结构化中学数学知识中准确地、自动地、联合地抽取术语及对应类型是一个难题。
[0003]术语是专业领域内知识概念的语言指称和主要载体,具有高度概括性和领域性。在中学数学领域中,术语存在单字、多义、多重嵌套等多个形式,其对应的知识点类型在不同语境下归属不同,甚至同语境下同一术语可表现为多种类型。例如,“平面直角坐标系中方程的图象中心点既是原点又是圆心”,其中“中心点”中的“点”作为术语,在“原点”和“圆心”两个术语所属类型的影响下,同属于“平面几何”和“坐标系与直角坐标”两种知识点类型。因此,根据不同语境正确划分术语的知识点类型,可作为提示进一步强化对数学知识概念或习题的理解。
[0004]现有传统的术语抽取方法,如基于规则和统计的方法存在耗时耗力、泛化能力较弱的缺陷,而近些年的术语抽取方法大多基于深度学习的序列标注方式,且大多聚焦于丰富词嵌入表示或引入额外提示信息以提升术语抽取性能。但中学数学学科的知识表示大多富有强逻辑性、结构性和多样性,这给中学数学术语抽取带来单字多义术语难以精准抽取、多重嵌套术语难以被完整抽取、复杂语境下术语抽取难度较大等难点。
[0005]针对中学数学领域,现有的一些术语抽取方法依旧对数学知识语义理解有限,导致术语边界识别较为模糊,且从其本身蕴含的依存结构信息角度挖掘句子深层语义的工作也较少,能同时考虑缓解错误分词或依存结构信息带来影响的工作更是几乎没有。
[0006]对于术语类型的划分通常借助分类模型实现,但针对不同语境下的术语所属类型不一致的问题,多分类方法无法解决。而现有的一些命名实体识别方法虽然可以对多种类型的实体进行序列标注,但无法解决同一句子中术语所属多类型的问题。
[0007]此外,术语及类型的抽取方法可以分为流水线式和联合式。借鉴关系抽取方法,流水线式的三元组抽取方法存在不可逆的误差传递问题,即前一个模块抽取的术语有误,后续对应的术语分类一定是错误的。同理基于流水线式的术语及类型抽取方法也存在这类问题,但采用联合抽取术语及类型的方式可以得到一定的解决。

技术实现思路

[0008]为了解决上述技术问题,本专利技术提供一种术语及类型的二元组单步抽取方法及其模型,从全新视角将术语抽取和对应类型分类统一为术语及类型二元组联合抽取任务,避免了误差传递,实现术语及类型抽取的一步到位,同时解决了术语及类型不一致和所属多类型问题。
[0009]本专利技术采用的技术方案如下:一种术语及类型二元组单步抽取方法,利用融合依存结构和边界损失完成术语及类型二元组的单步抽取,其步骤如下:步骤S1,构建中学数学术语数据集和构建依存关系集合;步骤S2,定义术语及类型二元组抽取任务形式化;步骤S3, 将步骤S1中的中学数学术语数据集输入到术语及类型二元组单步抽取模型,将数学文本输入到术语及类型二元组单步抽取模型的特征编码器中,获取数学文本中所有字嵌入特征向量;步骤S4,将步骤S1构建的依存关系集合和步骤S3获得的字嵌入特征向量直接输入到术语边界提取器中,得到预测的术语边界标识系列,再通过交叉熵损失函数计算边界损失L
m
,优化更新特征编码器和术语边界提取器的模型参数,获得术语边界标识;步骤S5,将步骤S3获得的字嵌入特征向量和步骤S4获得的术语边界提取器中的语义融合层输出的融合语义向量进行残差计算,将残差计算结果输入到二元组抽取器中,通过二元组抽取器的标识解码器解码得到初始二元组集合,同时通过交叉熵损失函数计算二元组损失L
t
;步骤S6,对步骤S4得到边界损失L
m
和步骤S5得到二元组损失L
t
联合求和得联合损失L,并优化特征编码器、术语边界提取器与二元组抽取器的参数,达到术语边界提取和二元组抽取条件;步骤S7,将术语边界标识和初始二元组集合输入到术语边界对齐模块,将术语边界标识对齐初始二元组集合的术语,将初始二元组集合内的二元组中未包含在术语边界标识中的术语连同二元组共同筛选出来,得到最终术语及类型二元组集合。
[0010]进一步的,步骤S1中构建中学数学术语数据集;具体为:步骤S11,收集中学数学领域术语及类型抽取的句子,去除重复句子;步骤S12,使用构建好的中学术语词典进行自动标注,同时为每个术语进行类型标注;步骤S13,对标注结果进行标识一致性检验,即针对多个人对同一内容的标注结果进行相似性计算,取相似度高的标注结果;步骤S14,将相似度高的标注结果进行检查和校正,保留符合要求的中学数学术语数据,构建中学数学术语数据集,并按照训练集:验证集:测试集为8:1:1的比例对中学数学术语数据集进行划分。
[0011]进一步的,步骤S1中构建依存关系集合,由斯坦福大学自然语言工具包中的依存句法分析模型直接抽取所得。
[0012]进一步的,步骤S2中定义术语及类型二元组抽取任务形式化,具体为:定义包含N个数学文本的数据集为,每个数学文本S
作为术语及类型二元组单步抽取模型输入,, 包含X种术语类型集合为;其中,S1为第1个数学文本,S2为第2个数学文本,S
N
为第N个数学文本;为数学文本S中第1个字,为数学文本S中第2个字,为数学文本S中的第Z个字,Z是字的个数;为第1种术语类型,为第2种术语类型,为第X种术语类型,X为术语类型的个数;定义含有5种术语边界标识集合为,含有4种二元组标识集合为;二元组抽取器的预测的术语及类型链接表为:;其中,为二元组抽取器预测的术语及类型链接表,为数学文本S中的第i个字,为数学文本S中第i个字第x种术语类型对应的预测标识,为多字术语的开始,为多字术语的中部,为多字术语的结束,为单字术语,为非术语;m表示术语边界,t表示二元组。
[0013]进一步的,步骤S3中特征编码器由预训练好的中文预训练BERT模型构成,具体为:将数学文本S中的第i个字输入到中文预训练模型BERT中,获取对应的字嵌入特征向量,计算过程如公式(1)所示;
ꢀꢀ
(1);其中,为数学文本S中的第i个字经过中文预训练模型BERT得到的初始的第i个字嵌入特征向量。
[0014]进一步的,步骤S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种术语及类型二元组单步抽取方法,利用融合依存结构和边界损失完成术语及类型二元组的单步抽取,其特征在于步骤如下:步骤S1,构建中学数学术语数据集和构建依存关系集合;步骤S2,定义术语及类型二元组抽取任务形式化;步骤S3, 将步骤S1中的中学数学术语数据集输入到术语及类型二元组单步抽取模型,将数学文本输入到术语及类型二元组单步抽取模型的特征编码器中,获取数学文本中所有字嵌入特征向量;步骤S4,将步骤S1构建的依存关系集合和步骤S3获得的字嵌入特征向量直接输入到术语边界提取器中,得到预测的术语边界标识系列,再通过交叉熵损失函数计算边界损失L
m
,优化更新特征编码器和术语边界提取器的模型参数,获得术语边界标识;步骤S5,将步骤S3获得的字嵌入特征向量和步骤S4获得的术语边界提取器中的语义融合层输出的融合语义向量进行残差计算,将残差计算结果输入到二元组抽取器中,通过二元组抽取器的标识解码器解码得到初始二元组集合,同时通过交叉熵损失函数计算二元组损失L
t
;步骤S6,对步骤S4得到边界损失L
m
和步骤S5得到二元组损失L
t
联合求和得联合损失L,并优化特征编码器、术语边界提取器与二元组抽取器的参数,达到术语边界提取和二元组抽取条件;步骤S7,将术语边界标识和初始二元组集合输入到术语边界对齐模块,将术语边界标识对齐初始二元组集合的术语,将初始二元组集合内的二元组中未包含在术语边界标识中的术语连同二元组共同筛选出来,得到最终术语及类型二元组集合。2.根据权利要求1所述的一种术语及类型二元组单步抽取方法,其特征在于:步骤S1中构建中学数学术语数据集;具体为:步骤S11,收集中学数学领域术语及类型抽取的句子,去除重复句子;步骤S12,使用构建好的中学术语词典进行自动标注,同时为每个术语进行类型标注;步骤S13,对标注结果进行标识一致性检验,即针对多个人对同一内容的标注结果进行相似性计算,取相似度高的标注结果;步骤S14,将相似度高的标注结果进行检查和校正,保留符合要求的中学数学术语数据,构建中学数学术语数据集,并按照训练集:验证集:测试集为8:1:1的比例对中学数学术语数据集进行划分。3.根据权利要求2所述的一种术语及类型二元组单步抽取方法,其特征在于:步骤S2中定义术语及类型二元组抽取任务形式化,具体为:定义包含N个数学文本的数据集为,每个数学文本S作为术语及类型二元组单步抽取模型输入,, 包含X种术语类型集合为;其中,S1为第1个数学文本,S2为第2个数学文本,S
N
为第N个数学文本;为数学文本S中第1个字,为数学文本S中第2个字,为数学文本S中的第Z个字,Z是字的个数;为术语的第1种类型,为术语的第2种类型,为术语的第X种类型,X为术语类型的个数;
定义含有5种术语边界标识集合为,含有4种二元组标识集合为;二元组抽取器的预测的术语及类型链接表为:;其中,为二元组抽取器预测的术语及类型链接表,为数学文本S中的第i个字,为数学文本S中第i个字、第x种术语类型对应的预测标识,为多字术语的开始,为多字术语的中部,为多字术语的结束,为单字术语,为非术语;m表示术语边界,t表示二元组。4.根据权利要求3所述的一种术语及类型二元组单步抽取方法,其特征在于:步骤S3中特征编码器由预训练好的中文预训练BERT模型构成,具体为:将数学文本S中的第i个字输入到中文预训练模型BERT中,获取对应的字嵌入特征向量,计算过程如公式(1)所示;(1);其中,为数学文本S中的第i个字经过中文预训练模型BERT得到的初始的第i个字嵌入特征向量。5.根据权利要求4所述的一种术语及类型二元组单步抽取方法,其特征在于:步骤S4中术语边界提取器,具体的提取步骤如下:步骤S41,将获得的字嵌入特征向量和构建的依存关系集合输入到术语边界提取器中的依存信息构建层中,依存信息构建层将输入的依存关系集合转化成依存关系邻接矩阵和依存标识特征向量;步骤S42,构建依存关系邻接矩阵,将存在依存关系的两个词各自包含的字相互之间构建无向连接边,得到对称的第一依存关系邻接矩阵;其中,A是大小的矩阵,表示第一依存关系邻接矩阵A中的第i个字、第j个字对应的元素值,且存在关系的两个词所组成的字之间的元素值为1,否则为0;步骤S43,构建依存标识特征向量,同样构造大小的矩阵,大小的矩阵中第i个字与第j个字对应的元素取值为0到U

1, U表示共有U种依存关系,利用嵌入函数获取依存标识特征向量;其中表示第i个字与第j个字之间的依存标识特征向量,dep表示依存标识;步骤S44,在结构表示层中利用依存信息构建层构建好的依存标识特征向量对第一依存关系邻接矩阵的初始权重值进行优化更新,得到第二依存关系邻接矩阵,计算过程如公式(2)所示;(2);
其中,表示第二依存关系邻接矩阵中的第i个字、第j个字对应的元素值,,表示级联操作,
·
表示内积操作,表示初始的第i个字嵌入特征向量和初始的第j个字嵌入特征向量;接着,进一步融合依存标识特征向量和更新后的第二依存关系邻接矩阵,将初始的第j个字嵌入特征向量和第i个字与第j个字之间的依存标识特征向量的信息进行融合,赋予更新后的第二依存关系邻接矩阵的权重加权,再通过激活函数与初始的第j个字嵌入特征向量进行级联,得到最终结构特征向量;计算过程如公式(3)所示;(3);其中,为第i个字对应的图卷积神经网络最终结构特征向量,表示ReLU激活函数,为可学习的权重矩阵,表示结构表示层的偏置项;步骤S45,利用双向长短期记忆网络层获取数学文本S中第i字对应的上下文语义特征向量,将初始的第i个字嵌入特征向量分别对应输入前向和后向的双向长短期记忆网络层中,计算过程如公式(4)所示;(4);其中,为第i字对应的上下文语义特征向量,分别表示前向长短期记忆网络的输出向量和后向长短期记忆网络的输出向量;步骤S46,通过注意力机制将第i个字对应的图卷积神经网络最终结构特征向量与第i字对应的上下文语...

【专利技术属性】
技术研发人员:罗凯威罗文兵黄琪王明文傅涵
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1