The invention belongs to the technical field of Mathematics for Natural Language Processing, in particular to a text in elementary mathematics topic semantic extraction, representation and modeling method and the corresponding analysis system of elementary mathematics. The method of the invention is: the math problem on the input, using a combination of word lexicon and regular expressions in the form of word segmentation, the segmentation results of lexical category conversion and phrase merge, and use the coreference resolution target to replace pronouns; after using the obtained information, extraction and translation by means of a mathematical formula order logic, get the math problem based on first-order logic representation; finally, the natural language and formula of the problem in depth using neural network modeling and semantic fusion. The effective elementary mathematics topic representation and modeling method proposed by the invention can transform mathematical problems into semantic representations that can be processed by computers, and make more precise semantic modeling for mathematical topics.
【技术实现步骤摘要】
针对初等数学题目的文本语义抽取、表示与建模方法和系统
本专利技术属于面向数学的自然语言处理
,具体涉及一种针对初等数学题目的文本语义抽取、表示与建模方法和一种初等数学题意分析系统。
技术介绍
目前面向数学领域的自然语言处理,主流的方法是对数学题目文本进行分词,利用词袋或词向量的形式进行题意的分析与建模。为了日益增长的更深层次的数学类文本处理需求,如数学题目问答、题型分类,目前的文本处理与语义建模方式,因为只关注于词本身的信息,且处理过程中不能很好的把无关词去除,从而对语义的理解上并不能达到很好的效果。
技术实现思路
本专利技术的目的在于提供一种能够更精准进行语义建模,以便于对数学类文本的理解、问答的针对初等数学题目的文本语义抽取、表示与建模方法,及相应的初等数学题意分析系统。本专利技术提供的针对初等数学题目的文本语义抽取、表示与建模方法,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。进一步,步骤(1)中所述利用词库与正则表达式结合的形式进行分词,具体流程为:(a)针对句子进行分词,使用基于词库的正向最大长度匹配与正则表达式结合的形式,得到完整分词序列与以LaTeX表示的完整数学公式片段;(b) ...
【技术保护点】
一种针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。
【技术特征摘要】
1.一种针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,具体步骤为:(1)对于输入的数学题目进行分词,其中,利用词库与正则表达式结合的形式,对具有LaTeX特殊符号的数学题目进行判断与分割,得到对应的分词结果;(2)利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换;(3)利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,得到基于一阶逻辑的数学题目表示;(4)利用深度神经网络,对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,得到最终的题目语义表示。2.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(1)中,所述利用词库与正则表达式结合的形式进行分词,具体流程为:(a)针对句子进行分词,使用基于词库的正向最大长度匹配与正则表达式结合的形式,得到完整分词序列与以LaTeX表示的完整数学公式片段;(b)针对LaTeX数学公式片段的分词,对LaTeX所含特殊符号进行单独分割,并利用正则匹配生成一阶谓词,将公式划分成多个以一阶谓词表示的语义段。3.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(2)中,所述利用指代消解算法,对分词结果中的指代词、隐形指代进行目标替换,具体步骤为:(a)将文本中相同词类进行合并,得到完整的指代词与目标词;(b)利用指代消解算法对句子中的指代词进行目标替换;(c)对于句子中出现的隐形指代问题,找到隐形指代所对应的目标词,在对应位置添加进褥子;(d)对句子中无主语的从属词,找到从属词所属的主语目标进行补充。4.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(3)中,所述利用文本中蕴含的语义结构对题目进行一阶逻辑翻译,具体步骤为:(a)将文本中的并列词进行合并;(b)针对LaTeX公式进行单独的一阶逻辑翻译,得到对应的逻辑类;(c)针对句子中出现的修饰结构、从属结构、谓词结构这些标准语法结构,分别进行一阶逻辑翻译,得到文本对应的完整一阶逻辑表示;(d)导入句子所对应的背景知识:针对函数题,表明对应的数学公式为函数;针对几何体,表明对应的数学公式为几何图形表示,并规整得到最终的一阶逻辑公式。5.根据权利要求1所述的针对初等数学题目的文本语义抽取、表示与建模方法,其特征在于,步骤(4)中,所述利用深度神经网络对得到的题目一阶逻辑表示和原始文本表示进行语义建模与融合,具体内容如下:(a)利用树形结构读入处理得到的一阶逻辑表示,利用词向量的形式读入原始的题目文本;(b)利用深度记忆网络对一阶逻辑表示和原始文本分别进行推理,并在最后进行融合,得到最终的抽象语义建模。6.一种基于如权利要求1-5之...
【专利技术属性】
技术研发人员:张奇,邓彬彬,赵忆佳,黄浩然,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。