The invention discloses a device and a text semantic analytical method with the formula, the method comprises the following steps: pre construction for semantic parsing model to describe the relationship between mathematical entities; mathematical formulas to be analyzed include receiving text data; building a mathematical entity to parse text data extraction; semantic analysis of the characteristics of various mathematical entities; using the semantic features and the semantic analysis of text data analysis towards analytical model of semantic analysis, the analytical results obtained. By using the present method, accurate parsing results can be obtained by text parsing containing formulas.
【技术实现步骤摘要】
包含公式的文本语义解析方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种包含公式的文本语义解析方法及装置。
技术介绍
随着互联网的不断普及和互联网技术的迅速发展,传统的教育模式也在逐渐发生改变,信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透,并逐步获得广大老师、家长和学生的认可。对海量题库中试题的深度理解是将在线教育系统推向智能化和个性化所必需的底层核心技术;所述智能化主要指在线教育系统能够实现自动学情诊断,智能组卷等操作;所述个性化主要指在线教育系统能够根据用户的学习情况有针对性的推荐能够提升用户学习水平的学习资源,如试题。因此,对包含公式的文本进行准确的语义解析显得尤为重要,尤其是对试题的语义解析。现有的试题解析方法一般是直接利用试题的分词结果做简单的变换后,来表达试题的语义,如通过word2vec技术将试题分词的结果向量化,使用试题中每个词的词向量表达试题的语义信息。由于词向量中每一维仅能够描述词、词共现等浅层相关性,而不能充分表达深层的词义,公式中字符被分词处理后,词向量中的各维仅能表达词的共现关系,无法描述公式内部的逻辑结构,从而导致现有 ...
【技术保护点】
一种包含公式的文本语义解析方法,其特征在于,包括:预先构建用于描述数学实体之间关系的语义解析模型;接收包含数学公式的待解析文本数据;构建待解析文本数据的数学实体对;提取各数学实体对的语义解析特征;利用所述语义解析特征及所述语义解析模型对待解析文本数据进行语义解析,得到解析结果。
【技术特征摘要】
1.一种包含公式的文本语义解析方法,其特征在于,包括:预先构建用于描述数学实体之间关系的语义解析模型;接收包含数学公式的待解析文本数据;构建待解析文本数据的数学实体对;提取各数学实体对的语义解析特征;利用所述语义解析特征及所述语义解析模型对待解析文本数据进行语义解析,得到解析结果。2.根据权利要求1所述的方法,其特征在于,所述预先构建用于描述数学实体之间关系的语义解析模型包括:收集设定数量的包含公式的文本数据;根据收集的文本数据构建公式实体集合和概念实体集合;构建数学实体对并标注每个数学实体对之间的关系;基于所述数学实体对的上下文信息提取所述数学实体对的语义解析特征;根据所述数学实体对的语义解析特征构建所述语义解析模型。3.根据权利要求2所述的方法,其特征在于,所述数学实体对包括:公式实体与公式实体之间的实体对、公式实体与概念实体之间的实体对;所述公式实体是指对包含公式的文本进行识别时得到的公式和/或公式字符;所述概念实体是指文本数据中出现的与数学概念相关的描述;所述数学实体之间的关系是指文本数据中数学实体之间的关系。4.根据权利要求2所述的方法,其特征在于,所述根据收集的文本数据构建公式实体集合包括:对收集的文本数据进行公式识别,得到公式和/或公式字符;将得到的公式和/或公式字符作为公式实体,得到公式实体集合。5.根据权利要求2所述的方法,其特征在于,所述根据收集的文本数据构建概念实体集合包括:对收集的文本数据进行分词,得到各词;计算各词在所述文本数据中出现的频率;如果所述频率大于设定的频率阈值,则将对应的词作为概念实体,得到概念实体集合。6.根据权利要求2所述的方法,其特征在于,所述数学实体对的语义解析特征包括以下任意一种或多种:所述数学实体对中两个数学实体的语法树的包含关系、两个数学实体的编辑距离、两个数学实体在文本数据中的位置关系、各数学实体的类型、各数学实体前后一个或多个词的词面信息。7.根据权利要求1至6任一项所述的方法,其特征在于,所述构建待解析文本数据的数学实体对包括:对待解析文本数据进行分词,根据分词结果确定所述待解析文本数据中的概念实体;识别所述待解析文本数据中包含的公式和/或公式字符,得到待解...
【专利技术属性】
技术研发人员:刘青文,张丹,邓晓栋,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。