The invention discloses a method and device for semantic analysis of mathematical formulas, the method comprises: a probabilistic context free grammar to construct mathematical formula model; receiving text data contains a mathematical formula; mathematical formula to identify the text data, get the general formula character; using the probabilistic context free grammar model analyzing the mathematical formula recognition character, obtained the analytical results. The accuracy of mathematical formula semantic analysis can be improved by using the present invention.
【技术实现步骤摘要】
数学公式的语义解析方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种数学公式的语义解析方法及装置。
技术介绍
随着互联网的不断普及和互联网技术的迅速发展,传统的教育模式也在逐渐发生改变,信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透,并逐步获得广大教师、家长和学生的认可。在以考试为主要评价方式的教育模式下,试题是学生巩固所学知识和教育者评价学生水平的基础数据资源,因此,试题资源的构建显得尤为重要。具体构建时,需要对大量包含公式的数据进行语义解析,如何准确地对包含数学公式的数据进行语义解析具重大意义。现有的数学公式的语义解析方法一般采用正则表达式匹配的方法,这种方法需要领域专家预先给出大量正则表达式,在对数学公式进行语义解析时,进行正则匹配。然而,当正则表达式的数量较多时,容易出现冲突,维护成本较高;此外,由于现有方法的解析粒度较粗,匹配结果也属于浅层文本,无法反映公式内部深层语义。因此,通过现有方法得到的解析结果准确度较低。
技术实现思路
本专利技术提供一种数学公式的语义解析方法及装置,以提高数学公式语义解析的准确度。为此,本专利技术提供如下技术方案:一种数学公式的语义解析方法,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。优选地,所述预先构建数学公式的概率上下文无关文法模型包括:确定数学公式的文法集合;收集包含数学公式的文本数据,作为语料库;根据所述语料库中各数学公式所在的 ...
【技术保护点】
一种数学公式的语义解析方法,其特征在于,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。
【技术特征摘要】
1.一种数学公式的语义解析方法,其特征在于,包括:预先构建数学公式的概率上下文无关文法模型;接收包含数学公式的文本数据;对所述文本数据中的数学公式进行识别,得到识别后的数学公式字符;利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果。2.根据权利要求1所述的方法,其特征在于,所述预先构建数学公式的概率上下文无关文法模型包括:确定数学公式的文法集合;收集包含数学公式的文本数据,作为语料库;根据所述语料库中各数学公式所在的上下文以及所述文法集合,构建各数学公式的语法树;根据所述语法树训练得到数学公式的概率上下文无关文法模型。3.根据权利要求2所述的方法,其特征在于,所述确定数学公式的文法集合包括:确定数学公式的表达类型;对各类数学公式的表达内容进行抽象,得到对应各表达类型的所有文法;采用递归形式将所有文法组合,形成文法集合。4.根据权利要求2所述的方法,其特征在于,所述语法树中的叶子节点由对应的文法中的终结符表示,所述语法树中的非叶子节点由对应的方法中的非终结符表示,所述终结符为根据词法分析器得到的公式字符,所述非终结符为根据终结符组合后形成的新公式类型;所述语法树的边表示父节点和子节点之间的逻辑关系。5.根据权利要求2所述的方法,其特征在于,所述根据所述语法树训练得到数学公式的概率上下文无关文法模型包括:确定概率上下文无关文法模型的拓扑结构;将各语法树作为训练数据,每条文法的出现概率为模型参数,以训练数据的似然概率最大化为优化目标,训练模型参数。6.根据权利要求2至5任一项所述的方法,其特征在于,所述利用所述概率上下文无关文法模型对所述识别后的数学公式字符进行解析,得到解析结果包括:自左向右扫描每个公式字符,获取公式字符之间对应的所有文法;对所述文法进行规约,得到规约后的文法;根据规约后的文法及规约路径确定对应所述数学公式的语法树。7.根据权利要求6所述的方法,其特征在于,所述对所述文法进行规约,得到规约后的文法包括:通过词法分析器将公式字符替换为对应的终结符;将符合所述文法集合中文法的终结符使用该文法的左部替换所述终结符,得到规约后的文法。8.根据权利要求6所述的方法,其特征在于,如果存在多条规约路径,则从得到的多个语法树中选择概率最大的语法树作为对应所述数学公式的语法树,所述语法树的概率为树中所有文法出现概率之积。9.根据权利要求6所述的方法,其特征在于,所述方法还包括:遍历对应所述数学公式的语法树,得到需要的语义信息。10.一种数学公式的语义解析装置,其特征在于,包括:模型构建模块,用于预先构建数学公式的概率上下文无关文法模型;接收...
【专利技术属性】
技术研发人员:刘青文,张丹,邓晓栋,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。