基于层次性递归树解码模型的数学应用题求解方法及系统技术方案

技术编号:39415660 阅读:14 留言:0更新日期:2023-11-19 16:06
本发明专利技术公开了基于层次性递归树解码模型的数学应用题求解方法及系统,包括:获取待求解的数学问题文本;基于所述数学问题文本构建数值图,将所述数值图进行嵌入与更新,并获取所述数值图的表征信息;基于所述数学问题文本构建语义图,将所述语义图进行嵌入与更新,获取所述语义图的表征信息;基于自我注意机制,将所述数值图的表征信息和所述语义图的表征信息进行融合和编码,获取编码信息;将所述编码信息输入所述层次性递归树解码模型生成数学表达树,获取所述数学问题文本的数学表达式,其中,所述层次性递归树解码模型具有分层关注机制,进行根节点预测、祖先节点学习、子节点预测。点预测。点预测。

【技术实现步骤摘要】
基于层次性递归树解码模型的数学应用题求解方法及系统


[0001]本专利技术属于数学应用题的自动化求解
,尤其涉及基于层次性递归树解码模型的数学应用题求解方法及系统


技术介绍

[0002]自动求解数学应用题
(MathWordProblem,MWP)
的目的是根据自然语言描述的问题文本求解出相应的表达式和答案

作为核心的数学推理任务之一,
MWP

20
世纪
60
年代以来就吸引了大量的研究兴趣

由于
MWP
任务要求机器理解数学知识
(
例如,数值推理和数量属性
)
和自然语言文本,这些挑战仍然需要解决

[0003]在早期阶段,基于规则和基于统计的数学应用题求解器试图将输入的问题文本转换为人为定义的逻辑特征,以促进数学推理

但是,这些方法需要手工制作的逻辑表单作为模板

目前,研究人员已经利用深度学习的力量来解决
MWP
问题

其中三种主流方法分别使用
sseq2seq
的模型
、seq2tree
模型和
graph2tree
的模型,它们是解决
MWP
任务的常用框架

最近,由于将预训练语言模型
(pre

trainedlanguagemodel,PLM)
纳入到现有的框架中,如
MWP

BERT
等模型,基准数据集的性能得到了显著提高

这些现有模型利用端到端机制,遵循编码器

解码器框架,如循环神经网络
RNN、
图神经网络
GNN、
大型语言模型
BERT
作为编码器,
GTS
的树形解码器作为解码器

尽管这些基于深度学习的求解器取得了一定的成功,但它们仍然远未达到类人类的数学推理能力

一方面,根据认知理论,人类需要通过从问题文本中学习数字之间的直接关系
(
如“1<2<3”)
来获得明确的数学推理知识

另一方面,人类一步一步地生成数学表达式,并记忆解题的逻辑思维中的早期信息

然而,目前的
MWP
求解器的性能还远不能为数学推理能力提供足够的支持

[0004]尽管数值计算能力在数字普遍存在的
MWP
领域中至关重要,但大多数现有的
MWP
求解器要么直接在预处理步骤中将数字丢弃,要么将数字视为特殊的符号占位符
(
例如,字符“[NUM]”)。
部分早期工作进行了初步研究,以提高
MWP
任务的数值推理能力

然而,这些方法在
MWP
任务表现不佳,因为他们不能处理大量的数字,特别是部分没有出现在训练数据中的数字
(
例如,超出词汇表的
(out

of

vocabulary,OOV)
数字
)
,这严重限制了他们在编码任何在
MWP
的数字

此外,主流的
GTS
解码器在生成新的目标向量时,只保留了父节点和兄弟节点的信息

而早期阶段的父节点信息
(
例如,父节点信息
)
被丢失,这会导致生成的数学表达式存在不足,特别是对于具有更多数学运算符的复杂问题


技术实现思路

[0005]为解决上述技术问题,本专利技术提出了基于层次性递归树解码模型的数学应用题求解方法及系统,首先提出了一个基于十进制计数法的嵌入方法来初始化数字表示,然后通过双向图注意网络来捕获数字的大小关系

通过这种方式,
NERHRT
就可以很好地归纳任意数字的数值属性,从而提高了数学计算能力

此外,还将数字表示和语义表示融合成一个统一的表示,以全面理解数学描述

最后,通过具有层次注意机制的层次递归树形解码器来聚
合来自表达式树上所有的祖先节点信息

[0006]为实现上述目的,本专利技术提供了基于层次性递归树解码模型的数学应用题求解方法,包括:
[0007]获取待求解的数学问题文本;
[0008]基于所述数学问题文本构建数值图,将所述数值图进行嵌入与更新,并获取所述数值图的表征信息;
[0009]基于所述数学问题文本构建语义图,将所述语义图进行嵌入与更新,获取所述语义图的表征信息;
[0010]基于自我注意机制,将所述数值图的表征信息和所述语义图的表征信息进行融合和编码,获取编码信息;
[0011]将所述编码信息输入所述层次性递归树解码模型生成数学表达树,获取所述数学问题文本的数学表达式,其中,所述层次性递归树解码模型具有分层关注机制,进行根节点预测

祖先节点学习

子节点预测

[0012]可选的,基于所述数学问题文本构建所述数值图包括:
[0013]提取所述数学问题文本中数字,并将所述数字作为数字节点,构建有向无环图;
[0014]将所述节点通过预设的关系类型进行连接,完成所述数值图的构建

[0015]可选的,将所述数值图进行嵌入与更新,并获取所述数值图的表征信息包括:
[0016]利用十进制计数法表示所述数字节点的值,获取用十进制计数法表示的数字;
[0017]基于标准配分函数和神经网络,对十进制计数法表示的所述数字进行编码,获取数字嵌入的向量,其中所述数字嵌入的向量包括数字值嵌入向量和数位嵌入向量;
[0018]构建整数嵌入生成器,利用所述整数嵌入生成器对所述数字值嵌入向量和所述数位嵌入向量进行整数嵌入,完成所述数字的嵌入,其中所述整数嵌入生成器由两个前馈网络和一个具有
ReLU
激活的两层全连接网络组成;
[0019]构建双方向的图注意网络,基于所述双方向的图注意网络,获取每个所述数字节点的双方向的邻域信息,完成所述数值图的更新;
[0020]基于每个所述数字节点的双方向的邻域信息,获取所述数字图的表征信息

[0021]可选的,基于所述双方向的图注意网络,获取每个所述数字节点的双方向的邻域信息包括:
[0022]将任一所述数字节点的邻域分为内邻域和外邻域,分别获取所述数字节点与所述内邻域的邻居节点的节点对和与所述外邻域的邻居节点的节点对;
[0023]将所述节点对进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于层次性递归树解码模型的数学应用题求解方法,其特征在于,包括:获取待求解的数学问题文本;基于所述数学问题文本构建数值图,将所述数值图进行嵌入与更新,并获取所述数值图的表征信息;基于所述数学问题文本构建语义图,将所述语义图进行嵌入与更新,获取所述语义图的表征信息;基于自我注意机制,将所述数值图的表征信息和所述语义图的表征信息进行融合和编码,获取编码信息;将所述编码信息输入所述层次性递归树解码模型生成数学表达树,获取所述数学问题文本的数学表达式,其中,所述层次性递归树解码模型具有分层关注机制,进行根节点预测

祖先节点学习

子节点预测
。2.
如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,基于所述数学问题文本构建所述数值图包括:提取所述数学问题文本中数字,并将所述数字作为数字节点,构建有向无环图;将所述节点通过预设的关系类型进行连接,完成所述数值图的构建
。3.
如权利要求2所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,将所述数值图进行嵌入与更新,并获取所述数值图的表征信息包括:利用十进制计数法表示所述数字节点的值,获取用十进制计数法表示的数字;基于标准配分函数和神经网络,对十进制计数法表示的所述数字进行编码,获取数字嵌入的向量,其中所述数字嵌入的向量包括数字值嵌入向量和数位嵌入向量;构建整数嵌入生成器,利用所述整数嵌入生成器对所述数字值嵌入向量和所述数位嵌入向量进行整数嵌入,完成所述数字的嵌入,其中所述整数嵌入生成器由两个前馈网络和一个具有
ReLU
激活的两层全连接网络组成;构建双方向的图注意网络,基于所述双方向的图注意网络,获取每个所述数字节点的双方向的邻域信息,完成所述数值图的更新;基于每个所述数字节点的双方向的邻域信息,获取所述数字图的表征信息
。4.
如权利要求3所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,基于所述双方向的图注意网络,获取每个所述数字节点的双方向的邻域信息包括:将任一所述数字节点的邻域分为内邻域和外邻域,分别获取所述数字节点与所述内邻域的邻居节点的节点对和与所述外邻域的邻居节点的节点对;将所述节点对进行向量连接操作,获取向量连接后的内邻居节点对和外邻居节点对;构建双方向的图注意网络,所述双方向的图注意网络包括多头注意力机制;基于向量连接后的内邻居节点对和外邻居节点对,通过所述注意力机制聚合具有不同注意力系数的内邻域方向的邻域信息和外邻域方向的邻域信息;通过具有
softmax
功能的注意机制对所述注意力系数进行迭代,获取每个所述数字节点的双方向的邻域信息
。5.
如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,基于所述数学问题文本构建所述语义图包括:通过对所述数学问题文本中的词语进行依赖分析或根据所述词语局部相关性,构建所
述语义图
。6.
如权利要求2所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,将所述语义图进行嵌入与更新,获取所述语义图的表征信息包括:获取所述数学问题文本中的文本数据,基于所述文本数据,通过
RoBERTa
对所述语义图的节点嵌入进行初始化,获取所述语义图的初始表征;获取所述语义图中任一节点在特定关系类型的边下的表示,方法为:其中,为线性变换参数,为语义关系
τ
下节点
j
的注意权重,为第
l
层网络迭代中特定关系类型的边
τ
下的邻居节点
j
的特征向量,为第
l+1
层网络迭代中任一节点
i
在特定关系类型的边
τ
下的表示;通过
softmax
函数归一化,获取所述语义图中任一节点在特定关系类型的边下邻居节点的注意权重;基于所述初始表征

任一节点在特定关系类型的边下的表示和任一节点在特定关系类型的边下邻居节点的注意权重,获取所述语义图的表征信息
。7.
如权利要求1所述的基于层次性递归树解码模型的数学应用题求解方法,其特征在于,基于自我注意机制,将所述数值图的表征信息和所述语义图的表征信息进行融合和编码包括:基于
Transformer
的编码器,将所述数值图的表...

【专利技术属性】
技术研发人员:周光有张怡谢志文
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1