一种自然语言文本和数学语言文本的混合词嵌入方法技术

技术编号:34331526 阅读:82 留言:0更新日期:2022-07-31 02:10
本发明专利技术提供了一种自然语言文本和数学语言文本的混合词嵌入方法,包括:对混合文本进行识别和预处理,得到由文本和数学表达式组成的数学资源数据集;对具有树形结构的数学表达式进行位置编码,保持树形结构的相对位置平移不变;对具有线性结构特征的文本和具有树形结构特征的数学表达式进行统一位置编码;将相对位置编码送入预训练模型的注意力模块,采用掩蔽语言模型和下句预测两个标准预训练任务对数学资源进行预训练,预训练完成后,每个符号均可得到富含上下文信息的嵌入向量表示。均可得到富含上下文信息的嵌入向量表示。均可得到富含上下文信息的嵌入向量表示。

【技术实现步骤摘要】
一种自然语言文本和数学语言文本的混合词嵌入方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种自然语言文本和数学语言文本的混合词嵌入方法。

技术介绍

[0002]数学文本是指包含数学表达式的自然语言文本,具有多义性和多态性的特征,广泛出现于STEM学科和高等教育中。自然语言文本具有线性结构特征,而数学表达式具有树形结构特征,这种混合文本的词嵌入表达对数学文本相关领域具有至关重要的作用。传统的词嵌入技术适合处理具有线性特征的文本,难以处理具有树形结构特征的数学表达式。
[0003]数学表达式可以表达为两种最重要的树形结构,一种是符号布局树(Symbol Layer Tree,SLT),这种表示是根据表达式的书写线构建的,具有数学表达式外观信息;另一种是运算符树(Operator Tree,OPT),这种表示是根据表达式中的运算符层次结构构建的,具有数学表达式语义信息。2021年,北京大学的Peng等提出基于BERT的数学表达式预训练模型MathBERT,可以获得混合文本的词嵌入表达。作者将数学表达式的LaTeX序列,OPT树本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自然语言文本和数学语言文本的混合词嵌入方法,其特征在于,包括:S1:对包含自然语言文本和数学语言文本的学习资源进行预处理,得到数学资源数据集,其中,数学语言文本为具有树形结构的数学表达式,自然语言文本为具有线性序列特征的上下文;S2:对具有树形结构的数学表达式采用基于分支的位置编码方式进行绝对位置编码,并根据绝对位置编码结果计算树形结构中两个节点的相对位置编码;S3:对具有线性序列特征的上下文采用负整数位置编码,并使用补码表示,然后将树形结构的根节点作为线性序列的首节点,实现数学表达式和上下文的统一位置编码,再根据统一位置编码计算树形结构和线性序列中任意两个节点的相对位置编码;S4:将步骤S1得到的数学资源数据集输入BERT预训练模型,其中,BERT预训练模型具有位置编码模块和注意力模块,将步骤S3中得到的统一位置编码输入位置编码模块、将步骤S3计算出的树形结构和线性序列中任意两个节点的相对位置编码送入BERT预训练模型的注意力模块进行训练,采用掩蔽语言模型和下句预测两个标准预训任务对数学资源进行预训练,得到训练好的词嵌入模型;S5:利用训练好的词嵌入模型对自然语言文本和数学语言文本进行处理,得到最终混合词嵌入表达。2.如权利要求1所述的自然语言文本和数学语言文本的混合词嵌入方法,其特征在于,步骤S1对包含自然语言文本和数学语言文本的学习资源进行预处理包括:对将包含自然语言文本和数学语言文本的学习资源处理为符号序列,其中,数学表达式为LaTeX格式,数学资源数据集为数学资源集合,表示为L={L1,L2,

,L
i
,

,L
N

},L
i
表示第i个数学资源。3.如权利要求2所述的自然语言文本和数学语言文本的混合词嵌入方法,其特征在于,对将包含自然语言文本和数学语言文本的学习资源处理为符号序列,包括:利用im2markup分词工具LaTeX格式的数学表达式进行分词,得到数学表达式分词结果的符号序列,利用TangenS工具,将LaTeX格式的数学表达式转化为运算符OPT树,对OPT树进行深度优先遍历,得到数学表达式树形结构遍历结果的符号序列,其中,第i个数学资源的第j个数学表达式,表示为第j个数学表达式,表示为表示第j个数学表达式经LaTeX格式分词后的第n

个符号,表示第j个数学表达式的OPT树经深度优先遍历得到的第k个符号,每个数学资源由自然语言文本和数学表达式组成,其中自然语言文本为数学表达式的上下文,数学表达式M
i,j
的上下文为C
i,j
={t
z
|t
z
∈L
i
,|z

p
ij
|≤R},其中t
z
表示第z个自然语言单词,p
ij
是数学表达式M
i,j
作为一个整体在序列中的位置,R最大为64;根据自然语言和数学表达式的符号表达形式得到每个数学资源的表达,其中第i个数学资源,表示为:N
T
是自然语言文本总长度;当数学表达式M
i,j
由多个连等式或不等式构成时,以等号和不等号为标志切分为根据每个数学资源的表达得到数学...

【专利技术属性】
技术研发人员:董石唐家玉陶雪云王志锋田元陈加陈迪左明章
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1