数学公式的语义解析方法及装置制造方法及图纸

技术编号:16472514 阅读:18 留言:0更新日期:2017-10-29 00:13
本发明专利技术公开了一种数学公式的语义解析方法及装置,该方法包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。利用本发明专利技术,可以提高数学公式语义解析的准确度。

Semantic parsing method and device of mathematical formula

The invention discloses a method and device for semantic analysis of mathematical formulas, the method comprises: a probabilistic context free grammar to construct mathematical formula model; receiving text data contains a mathematical formula; mathematical formula to identify the text data, get the general formula character; using the probabilistic context free grammar model analyzing the mathematical formula recognition character, obtained the analytical results. The accuracy of mathematical formula semantic analysis can be improved by using the present invention.

【技术实现步骤摘要】
数学公式的语义解析方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种数学公式的语义解析方法及装置。
技术介绍
随着互联网的不断普及和互联网技术的迅速发展,传统的教育模式也在逐渐发生改变,信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透,并逐步获得广大教师、家长和学生的认可。在以考试为主要评价方式的教育模式下,试题是学生巩固所学知识和教育者评价学生水平的基础数据资源,因此,试题资源的构建显得尤为重要。具体构建时,需要对大量包含公式的数据进行语义解析,如何准确地对包含数学公式的数据进行语义解析具重大意义。现有的数学公式的语义解析方法一般采用正则表达式匹配的方法,这种方法需要领域专家预先给出大量正则表达式,在对数学公式进行语义解析时,进行正则匹配。然而,当正则表达式的数量较多时,容易出现冲突,维护成本较高;此外,由于现有方法的解析粒度较粗,匹配结果也属于浅层文本,无法反映公式内部深层语义。因此,通过现有方法得到的解析结果准确度较低。
技术实现思路
本专利技术提供一种数学公式的语义解析方法及装置,以提高数学公式语义解析的准确度。为此,本专利技术提供如下技术方案:一种数学公式的语义解析方法,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。优选地,所述预先构建数学公式的概率上下文无关文法模型包括:确定数学公式的文法集合;收集包含数学公式的文本数据,作为语料库;根据所述语料库中各数学公式所在的上下文以及所述文法集合,构建各数学公式的语法树;根据所述语法树训练得到数学公式的概率上下文无关文法模型。优选地,所述确定数学公式的文法集合包括:确定数学公式的表达类型;对各类数学公式的表达内容进行抽象,得到对应各表达类型的所有文法;采用递归形式将所有文法组合,形成文法集合。优选地,所述语法树中的叶子节点由对应的文法中的终结符表示,所述语法树中的非叶子节点由对应的方法中的非终结符表示,所述终结符为根据词法分析器得到的公式字符,所述非终结符为根据终结符组合后形成的新公式类型;所述语法树的边表示父节点和子节点之间的逻辑关系。优选地,所述根据所述语法树训练得到数学公式的概率上下文无关文法模型包括:确定概率上下文无关文法模型的拓扑结构;将各语法树作为训练数据,每条文法的出现概率为模型参数,以训练数据的似然概率最大化为优化目标,训练模型参数。优选地,所述利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果包括:自左向右扫描每个公式字符,获取公式字符之间对应的所有文法;对所述文法进行规约,得到规约后的文法;根据规约后的文法及规约路径确定对应所述数学公式的语法树。优选地,所述对所述文法进行规约,得到规约后的文法包括:通过词法分析器将公式字符替换为对应的终结符;将符合所述文法集合中文法的终结符使用该文法的左部替换所述终结符,得到规约后的文法。优选地,如果存在多条规约路径,则从得到的多个语法树中选择概率最大的语法树作为对应所述数学公式的语法树,所述语法树的概率为树中所有文法出现概率之积。优选地,所述方法还包括:遍历对应所述数学公式的语法树,得到需要的语义信息。一种数学公式的语义解析装置,包括:模型构建模块,用于预先构建数学公式的概率上下文无关文法模型;接收模块,用于接收包含数学公式的文本数据;识别模块,用于对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;解析模块,用于利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。优选地,所述模型构建模块包括:文法集合确定单元,用于确定数学公式的文法集合;语料库建立单元,用于收集包含数学公式的文本数据,作为语料库;语法树生成单元,用于根据所述语料库中各数学公式所在的上下文以及所述文法集合,构建各数学公式的语法树;训练单元,用于根据所述语法树训练得到数学公式的概率上下文无关文法模型。优选地,所述文法集合确定单元包括:类型确定子单元,用于确定数学公式的表达类型;内容抽象子单元,用于对各类数学公式的表达内容进行抽象,得到对应各表达类型的所有文法;组合子单元,用于采用递归形式将所有文法组合,形成文法集合。优选地,所述语法树中的叶子节点由对应的文法中的终结符表示,所述语法树中的非叶子节点由对应的方法中的非终结符表示,所述终结符为根据词法分析器得到的公式字符,所述非终结符为根据终结符组合后形成的新公式类型;所述语法树的边表示父节点和子节点之间的逻辑关系。优选地,所述训练单元包括:拓扑结构确定子单元,用于确定概率上下文无关文法模型的拓扑结构;模型参数训练子单元,用于将各语法树作为训练数据,每条文法的出现概率为模型参数,以训练数据的似然概率最大化为优化目标,训练模型参数。优选地,所述解析模块包括:扫描单元,用于自左向右扫描每个公式字符,获取公式字符之间对应的所有文法;规约单元,用于对所述文法进行规约,得到规约后的文法;语法树确定单元,用于根据规约后的文法及规约路径确定对应所述数学公式的语法树。优选地,所述规约单元包括:字符替换子单元,用于通过词法分析器将公式字符替换为对应的终结符;终结符替换子单元,用于将符合所述文法集合中文法的终结符使用该文法的左部替换所述终结符,得到规约后的文法。优选地,所述语法树确定单元,还用于在存在多条规约路径时,则从得到的多个语法树中选择概率最大的语法树作为对应所述数学公式的语法树,所述语法树的概率为树中所有文法出现概率之积。优选地,所述装置还包括:语义抽取模块,用于遍历对应所述数学公式的语法树,得到需要的语义信息。本专利技术实施例提供的数学公式的语义解析方法及装置,将PCFG(ProbabilisticContextFreeGrammar,概率上下文无关语法)模型应用于公式的语义解析问题中。利用数学公式的概率上下文无关文法模型对数学公式进行解析,得到解析结果,有效解决了公式解析的二义性问题,提高了数学公式解析的准确度。进一步地,将解析结果以数学公式字符的语法树形式表示,每次针对不同应用需要解析公式语义时,只需要遍历语法树即可得到相应语义,而不需要预设规则进行匹配。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例中构建数学公式的概率上下文无关文法模型的流程图;图2是本专利技术实施例中构建的数学公式的语法树的示意图;图3是本专利技术实施例数学公式的语义解析方法的流程图;图4是本专利技术实施例中对公式字符进行解析时的文法规约过程及规约后得到的语法树示例;图5是本专利技术实施例中根据其它规约路径得到的语法树示例;图6是本专利技术实施例中进行语义解析得到的语法树示例;图7是本专利技术实施例数学公式的语义解析装置的结构示意图;图8是本专利技术实施例中模型构建模块的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。本文档来自技高网
...
数学公式的语义解析方法及装置

【技术保护点】
一种数学公式的语义解析方法,其特征在于,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。

【技术特征摘要】
1.一种数学公式的语义解析方法,其特征在于,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。2.根据权利要求1所述的方法,其特征在于,所述预先构建数学公式的概率上下文无关文法模型包括:确定数学公式的文法集合;收集包含数学公式的文本数据,作为语料库;根据所述语料库中各数学公式所在的上下文以及所述文法集合,构建各数学公式的语法树;根据所述语法树训练得到数学公式的概率上下文无关文法模型。3.根据权利要求2所述的方法,其特征在于,所述确定数学公式的文法集合包括:确定数学公式的表达类型;对各类数学公式的表达内容进行抽象,得到对应各表达类型的所有文法;采用递归形式将所有文法组合,形成文法集合。4.根据权利要求2所述的方法,其特征在于,所述语法树中的叶子节点由对应的文法中的终结符表示,所述语法树中的非叶子节点由对应的方法中的非终结符表示,所述终结符为根据词法分析器得到的公式字符,所述非终结符为根据终结符组合后形成的新公式类型;所述语法树的边表示父节点和子节点之间的逻辑关系。5.根据权利要求2所述的方法,其特征在于,所述根据所述语法树训练得到数学公式的概率上下文无关文法模型包括:确定概率上下文无关文法模型的拓扑结构;将各语法树作为训练数据,每条文法的出现概率为模型参数,以训练数据的似然概率最大化为优化目标,训练模型参数。6.根据权利要求2至5任一项所述的方法,其特征在于,所述利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果包括:自左向右扫描每个公式字符,获取公式字符之间对应的所有文法;对所述文法进行规约,得到规约后的文法;根据规约后的文法及规约路径确定对应所述数学公式的语法树。7.根据权利要求6所述的方法,其特征在于,所述对所述文法进行规约,得到规约后的文法包括:通过词法分析器将公式字符替换为对应的终结符;将符合所述文法集合中文法的终结符使用该文法的左部替换所述终结符,得到规约后的文法。8.根据权利要求6所述的方法,其特征在于,如果存在多条规约路径,则从得到的多个语法树中选择概率最大的语法树作为对应所述数学公式的语法树,所述语法树的概率为树中所有文法出现概率之积。9.根据权利要求6所述的方法,其特征在于,所述方法还包括:遍历对应所述数学公式的语法树,得到需要的语义信息。10.一种数学公式的语义解析装置,其特征在于,包括:模型构建模块,用于预先构建数学公式的概率上下文无关文法模型;接收...

【专利技术属性】
技术研发人员:刘青文张丹邓晓栋胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1