当前位置: 首页 > 专利查询>复旦大学专利>正文

针对初等数学题目的文本语义抽取、表示与建模方法和系统技术方案

技术编号:16779314 阅读:28 留言:0更新日期:2017-12-12 23:43
本发明专利技术属于面向数学的自然语言处理技术领域,具体为一种针对初等数学题目的文本语义抽取、表示与建模方法及相应的初等数学题意分析系统。本发明专利技术方法为:对输入的数学题目,利用分词词库与正则表达式结合的形式进行分词,对分词后的结果,进行词类转换和词组合并,并利用指代消解对指代词进行目标替换;之后,利用处理得到的信息,借助一阶逻辑进行数学公式的抽取与翻译,得到基于一阶逻辑的数学题目表示;最后,利用深度神经网络对问题中的自然语言与公式进行语义建模与语义融合。本发明专利技术提出的有效的初等数学题目表示与建模方法,可以将数学题目转换成可以被计算机处理的语义表示形式,并对数学题目进行更精准的语义建模。

Text semantic extraction, representation and modeling methods and systems for elementary mathematical problems

The invention belongs to the technical field of Mathematics for Natural Language Processing, in particular to a text in elementary mathematics topic semantic extraction, representation and modeling method and the corresponding analysis system of elementary mathematics. The method of the invention is: the math problem on the input, using a combination of word lexicon and regular expressions in the form of word segmentation, the segmentation results of lexical category conversion and phrase merge, and use the coreference resolution target to replace pronouns; after using the obtained information, extraction and translation by means of a mathematical formula order logic, get the math problem based on first-order logic representation; finally, the natural language and formula of the problem in depth using neural network modeling and semantic fusion. The effective elementary mathematics topic representation and modeling method proposed by the invention can transform mathematical problems into semantic representations that can be processed by computers, and make more precise semantic modeling for mathematical topics.

【技术实现步骤摘要】
针对初等数学题目的文本语义抽取、表示与建模方法和系统
本专利技术属于面向数学的自然语言处理
,具体涉及一种针对初等数学题目的文本语义抽取、表示与建模方法和一种初等数学题意分析系统。
技术介绍
目前面向数学领域的自然语言处理,主流的方法是对数学题目文本进行分词,利用词袋或词向量的形式进行题意的分析与建模。为了日益增长的更深层次的数学类文本处理需求,如数学题目问答、题型分类,目前的文本处理与语义建模方式,因为只关注于词本身的信息,且处理过程中不能很好的把无关词去除,从而对语义的理解上并不能达到很好的效果。
技术实现思路
本专利技术的目的在于提供一种能够更精准进行语义建模,以便于对数学类文本的理解、问答的针对初等数学题目的文本语义抽取、表示与建模方法,及相应的初等数学题意分析系统。本专利技术提供的针对初等数学题目的文本语义抽取、表示与建模方法,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。进一步,步骤(1)中所述利用词库与正则表达式结合的形式进行分词,具体流程为:(a)针对句子进行分词,使用基于词库的正向最大长度匹配与正则表达式结合的形式,得到完整分词序列与以LaTeX表示的完整数学公式片段;(b)针对LaTeX数学公式片段的分词,对LaTeX所含特殊符号进行单独分割,并利用正则匹配生成一阶谓词,将公式划分成多个以一阶谓词表示的语义段。进一步,步骤(2)中所述利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换,具体步骤为:(a)将文本中相同词类进行合并,得到完整的指代词与目标词;(b)利用指代消解算法对句子中的指代词进行目标替换;(c)对于句子中出现的隐形指代问题,找到隐形指代所对应的目标词,在对应位置添加进褥子;(d)对句子中无主语的从属词,找到从属词所属的主语目标进行补充。进一步,步骤(3)中所述利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,具体步骤为:(a)将文本中的并列词进行合并;(b)针对LaTeX公式进行单独的一阶逻辑翻译,得到对应的逻辑类;(c)针对句子中出现的修饰结构、从属结构、谓词结构这些标准语法结构,分别进行一阶逻辑翻译,得到文本对应的完整一阶逻辑表示;(d)导入句子所对应的背景知识:针对函数题,表明对应的数学公式为函数;针对几何体,表明对应的数学公式为几何图形表示,并规整得到最终的一阶逻辑公式。进一步,步骤(4)中所述利用深度神经网络对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,具体内容如下:(a)利用树形结构读入处理得到的一阶逻辑表示,利用词向量的形式读入原始的题目文本;(b)利用深度记忆网络对一阶逻辑表示和原始文本分别进行推理,并在最后进行融合,得到最终的抽象语义建模。基于上述初等数学题目表示与建模方法,本专利技术还提供一种相应的初等数学题意分析系统。该系统结构如附图1所示,包括分词单元、指代消解单元、一阶逻辑翻译单元和语义建模融合单元。这四个单元的功能分别对应于上述方法的四个步骤的操作内容,其中,分词单元用于接收用户输入的数学题目文本,并将所输入文本进行分词处理,得到词语序列;指代消解单元用于分析词语序列,对分词结果中的指代词、隐形指代进行目标替换,完善语句的语义结构;一阶逻辑翻译单元用于将文本翻译成对应的基于一阶逻辑的数学题目表示;语义建模融合单元利用深度神经网络模型对对一阶逻辑表示和原始文本分别进行推理融合,得到最终的抽象语义建模。本专利技术提出的方法和系统,可以有效的将输入的数学题目文本转换为计算机能更精确处理的一阶逻辑形式表示,同时,利用原始文本和文本对应的一阶逻辑表示进行融合语义建模,得到了更精准的语义建模结果,对数学类文本的理解、问答具有重要的意义和作用。附图说明图1是本专利技术初等数学题意分析系统的结构示意图。图2是本专利技术一阶逻辑翻译单元的流程图。图3是本专利技术语义建模融合单元的网络模型图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示的一种初等数学题意分析系统,包括分词单元、指代消解单元、一阶逻辑翻译单元和语义建模融合单元。分词单元用于接收用户输入的数学题目文本,并将所输入文本进行分词处理,得到词语序列;指代消解单元用于分析词语序列,对分词结果中的指代词、隐形指代进行目标替换,完善语句的语义结构;一阶逻辑翻译单元用于将文本翻译成对应的基于一阶逻辑的数学题目表示;语义建模融合单元利用深度神经网络模型对对一阶逻辑表示和原始文本分别进行推理融合,得到最终的抽象语义建模。本实施例的分词单元,包括接收模块、针对句子的分词模块和针对LaTeX数学公式片段的分词模块。接收单元接收用户输入的数学题目文本,文本形式为中文、英文或LaTeX公式。对于输入文本,先进行句子层次的分词,本实施例采用基于词库的正向最大长度匹配算法与正则表达式结合的形式;对句子层次分词后的结果,再进行LaTeX公式片段层次的分词,得到对应的词语序列。以题目文本“设G是OC的中点,证明:$FG\parallel$平面BOE”为例,通过句子层次分词,我们可以得到词语序列:“设|G|是|OC|的|中点|,|证明|:|$FG\parallel$|平面|BO”。之后,通过LaTeX公式片段层次的分词,可以将句中的数学公式再分割成多个语义段:从“|$FG\parallel$|”划分为“|FG|$\parallel$|”。本实施例中的指代消解单元,包括词类合并、指代词替换、隐形指代替换和从属词补充四个模块。词类合并模块对根据词类合并被分词单元分开的指代词或目标词,以使其完整;指代词替换模块对句中出现的典型的指代词进行目标替换;隐形指代替换模块会对句中的隐形指代进行目标词插入;从属词补充模块对于句中的无主语从属词进行主语目标补充。以词语序列“三角形ABC|的|边长|为|2|,|圆|O|的|直径|为|3|,|直径|设为|d|,|该圆|为|三角形|的|内接三角形|,”为例,词类合并将“|圆|O|”合并为“|圆O|”;指代词替换模块将“|该圆|”替换为“|圆O|”;隐形指代替换模块将“|三角形|”补充为“|三角形ABC|”;从属词补充会为句子“”“|直径|设为|d|”补充主语词,得到“|圆O|的|直径|设为|d|”。本实施例中的一阶逻辑翻译单元,包括并列词合并、数学公式翻译、文本翻译和背景知识导入四个模块,如图2所示。并列词合并模块将文本中连续的同类词组合成一个完整的组词;数学公式翻译模块对文本中出现的LaTeX公式进行单独翻译,得到对应的一阶逻辑语句;文本翻译模块将全部文本用一阶逻辑表达;背景知识导入模块会对翻译得到的一阶逻辑进行背景知识的补充。本实施例中,以文本“|f(x)|,|g(x)|,|h(x)|为|偶函数|”为例,“|f(x)|”、“|g(x)|”和“|h(x)|”会被组合处本文档来自技高网...
针对初等数学题目的文本语义抽取、表示与建模方法和系统

【技术保护点】
一种针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。

【技术特征摘要】
1.一种针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。2.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(1)中,所述利用词库与正则表达式结合的形式进行分词,具体流程为:(a)针对句子进行分词,使用基于词库的正向最大长度匹配与正则表达式结合的形式,得到完整分词序列与以LaTeX表示的完整数学公式片段;(b)针对LaTeX数学公式片段的分词,对LaTeX所含特殊符号进行单独分割,并利用正则匹配生成一阶谓词,将公式划分成多个以一阶谓词表示的语义段。3.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(2)中,所述利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换,具体步骤为:(a)将文本中相同词类进行合并,得到完整的指代词与目标词;(b)利用指代消解算法对句子中的指代词进行目标替换;(c)对于句子中出现的隐形指代问题,找到隐形指代所对应的目标词,在对应位置添加进褥子;(d)对句子中无主语的从属词,找到从属词所属的主语目标进行补充。4.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(3)中,所述利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,具体步骤为:(a)将文本中的并列词进行合并;(b)针对LaTeX公式进行单独的一阶逻辑翻译,得到对应的逻辑类;(c)针对句子中出现的修饰结构、从属结构、谓词结构这些标准语法结构,分别进行一阶逻辑翻译,得到文本对应的完整一阶逻辑表示;(d)导入句子所对应的背景知识:针对函数题,表明对应的数学公式为函数;针对几何体,表明对应的数学公式为几何图形表示,并规整得到最终的一阶逻辑公式。5.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(4)中,所述利用深度神经网络对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,具体内容如下:(a)利用树形结构读入处理得到的一阶逻辑表示,利用词向量的形式读入原始的题目文本;(b)利用深度记忆网络对一阶逻辑表示和原始文本分别进行推理,并在最后进行融合,得到最终的抽象语义建模。6.一种基于如权利要求1-5之...

【专利技术属性】
技术研发人员:张奇邓彬彬赵忆佳黄浩然
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1