一种面向初等数学领域的命名识别方法及其系统技术方案

技术编号:16605505 阅读:45 留言:0更新日期:2017-11-22 15:17
本发明专利技术公开了一种面向初等数学领域的命名识别方法,首先确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;提取已经进行过分词预处理的文字,标注当前文字在词中的位置;标注完成当前文字在词中的位置后,对当前的分词进行词性标注;得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新进入步骤S1,并对其文本信息进行重新训练标注。本发明专利技术还公开了一种面向初等数学领域的命名识别系统,包括文本预处理模块、分词标注模块、词性标注模块和结果判定模块。本发明专利技术可以有效的提取文本中关于数学方面的信息,识别准确、效率高。

A method and system of naming and recognition for Elementary Mathematics

The invention discloses a name recognition method for elementary mathematics field, first to identify the mathematical text information, and pretreatment, the word are arranged in columns; extraction has been pretreatment of text segmentation, mark the location in the words of the current text; in the words of the label position the text, part of speech tagging of the word segmentation; get POS tagging results after the judgment results are correct, if correct, is marked success; if not, then re entered the step S1, and the text information re training annotation. The invention also discloses a naming recognition system for elementary mathematics field, which comprises a text preprocessing module, a word segmentation tagging module, a POS tagging module and a result judging module. The invention can effectively extract the mathematical information in the text, and has the advantages of accurate identification and high efficiency.

【技术实现步骤摘要】
一种面向初等数学领域的命名识别方法及其系统
本专利技术涉及自然语言处理领域,具体涉及一种面向初等数学领域的命名识别方法及其系统。
技术介绍
随着人工智能的发展和推理技术的深化,自动推理技术得到了有效的应用,同时相关的理论、技术、方法也得到了很大的发展,自动推理在数学方面的应用也更加的广泛深入。在利用自动推理推理数学方面的问题时,往往有许多的信息不能有效的识别或者识别效率很低。初等数学的命名识别是一个自动解题系统中的重要一环,它涉及到前端的自然语言处理,一段数学文本信息,提取出文本中的数学方面的信息是最重要的一环,当前自然语言对于初等数学方面的理解并不准确,因此需要一种有效的系统能够准确地识别初等数学里面的各种数学信息,以及隐含的更深一层次的信息。
技术实现思路
基于此,针对上述问题,有必要提出一种面向初等数学领域的命名识别方法及其系统,本专利技术可以有效的提取文本中关于数学方面的信息,识别准确、效率高。本专利技术提供一种面向初等数学领域的命名识别方法,其技术方案是:一种面向初等数学领域的命名识别方法,包括如下步骤:S1、确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;S2、提取步骤S1中已经进行过分词预处理的文字,标注当前文字在词中的位置;S3、标注完成当前文字在词中的位置后,对当前的分词进行词性标注;S4、得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新进入步骤S1,并对其文本信息进行重新训练标注。针对一段数学文本信息,对其进行分词、标注、将文本中的数学信息提取出来,得到实体之间的关系;如此,才能进行接下来的操作。在本专利技术中首先确定一个待识别的数学文本信息,将数学文本信息按字逐行排列,然后进行分词操作,分词操作具体为:给定一个字的序列,找出最可能的标签序列,将数学文本按字逐行展开后,对于每个字进行位置标注,即表示该字在词中的位置,例如:该字在词的词首、词中间抑或是在词尾的位置,相应的表示方法为B(开头),M(中间),E(结尾),S(独立成词);随后进行词性标注,词性是词汇基本的语法属性,通常也称为词类,词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,标注该词的词性,表示该词是动词、名词或是其他的连接词等等;并且进行命名实体识别,即给定一个词的序列,找出最可能的标签序列,识别出文本中对于数学理解具有特定意义的实体,例如:函数、几何、或者数列等等诸多有效的信息;用于命名实体识别的机器学习方法有隐马尔可夫模型和最大熵模型;最后判定标注结果是否正确,如果正确,则可进行其他操作;如果不正确,则进行重新训练标注。本专利技术的面向初等数学领域的命名识别方法可以有效的提取文本中关于数学方面的信息,识别准确、效率高。作为上述方案的进一步优化,所述步骤S2具体包括以下步骤:提取文字后,对每个文字进行位置标注,如果该文字在词的词首,则标注为B;如果该文字在词的中间,则标注为M;如果该文字在词的末尾,则标注为E;如果该文字独立成词,则标注为S。词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作,本专利技术采取基于统计的方法和规则的方法(基于词表)二者相结合,将文本中的数学信息提取出来,使文本信息中文字的位置清晰、完整的呈现出来,提高了识别初等数学里面的各种数学信息的准确度。作为上述方案的进一步优化,在步骤S2中采用4-tag标注法标注当前文字在词中的位置。进一步提高了分词标注的准确性,其标注方法更可靠、高效。作为上述方案的更进一步优化,所述步骤S3具体包括以下步骤:判断待识别的数学文本信息中每个词的语法范畴,确定其词性并加以标注,如果该词是动词,则标注为v;如果该词是名词,则标注为n;如果该词是连接词,则标注为nd;如果该词是字母,则标注为ws;如果该词是符号,则标注为wp。用于在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,标注该词的词性,表示该词是动词、名词或是其他的连接词等等;不像英文中的命名实体具有明显的大写标志,中文的命名实体的识别更加困难,因此中文的尤其是针对初等数学的词性标注更加复杂,其词性标注详细,便于分辨,提高了对数学信息的识别准确性,同时提高了识别效率。本专利技术还提供一种面向初等数学领域的命名识别系统,其技术方案是:一种面向初等数学领域的命名识别系统,包括文本预处理模块、分词标注模块、词性标注模块和结果判定模块,其中:文本预处理模块,用于确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;分词标注模块,用于提取已经进行过分词预处理的文字,标注当前文字在词中的位置;词性标注模块,用于标注完成当前文字在词中的位置后,对当前的分词进行词性标注;结果判定模块,用于得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新对文本信息进行重新训练标注。作为上述方案的进一步优化,所述分词标注模块包括文字位置标注子模块,用于对每个文字进行位置标注,如果该文字在词的词首,则标注为B;如果该文字在词的中间,则标注为M;如果该文字在词的末尾,则标注为E;如果该文字独立成词,则标注为S。作为上述方案的进一步优化,所述分词标注模块还包括4-tag标注子模块,用于采用4-tag标注法标注当前文字在词中的位置。作为上述方案的更进一步优化,所述词性标注模块包括词性判断子模块,用于判断待识别的数学文本信息中每个词的语法范畴,确定其词性并加以标注,如果该词是动词,则标注为v;如果该词是名词,则标注为n;如果该词是连接词,则标注为nd;如果该词是字母,则标注为ws;如果该词是符号,则标注为wp。本专利技术的有益效果是:1、本专利技术的面向初等数学领域的命名识别方法可以有效的提取文本中关于数学方面的信息,其识别准确、效率高。2、词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作,本专利技术采取基于统计的方法和规则的方法(基于词表)二者相结合,将文本中的数学信息提取出来,使文本信息中文字的位置清晰、完整的呈现出来,提高了识别初等数学里面的各种数学信息的准确度。3、对于待识别的数学文本信息中每个词的语法范畴进行判定,确定其词性并加以标注,表示该词是动词、名词或是其他的连接词等等;其词性标注详细,便于分辨,提高了对数学信息的识别准确性,同时提高了识别效率。附图说明图1是本专利技术实施例所述面向初等数学领域的命名识别方法的流程图;图2是本专利技术实施例所述面向初等数学领域的命名识别系统的原理框图。附图标记说明:10-文本预处理模块;20-分词标注模块;201-文字位置标注子模块;202-4-tag标注子模块;30-词性标注模块;301-词性判断子模块;40-结果判定模块。具体实施方式下面结合附图对本专利技术的实施例进行详细说明。实施例1如图1所示,一种面向初等数学领域的命名识别方法,包括如下步骤:S1、确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;S2、提取步骤S1中已经进行过分词预处理的文字,标注当前文字在词中的位置;S3、标注完成当前文字在词中的位置后,对当前的分词进行词性标注;S4、得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重本文档来自技高网...
一种面向初等数学领域的命名识别方法及其系统

【技术保护点】
一种面向初等数学领域的命名识别方法,其特征在于,包括如下步骤:S1、确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;S2、提取步骤S1中已经进行过分词预处理的文字,标注当前文字在词中的位置;S3、标注完成当前文字在词中的位置后,对当前的分词进行词性标注;S4、得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新进入步骤S1,并对其文本信息进行重新训练标注。

【技术特征摘要】
1.一种面向初等数学领域的命名识别方法,其特征在于,包括如下步骤:S1、确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;S2、提取步骤S1中已经进行过分词预处理的文字,标注当前文字在词中的位置;S3、标注完成当前文字在词中的位置后,对当前的分词进行词性标注;S4、得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新进入步骤S1,并对其文本信息进行重新训练标注。2.根据权利要求1所述面向初等数学领域的命名识别方法,其特征在于,所述步骤S2具体包括以下步骤:提取文字后,对每个文字进行位置标注,如果该文字在词的词首,则标注为B;如果该文字在词的中间,则标注为M;如果该文字在词的末尾,则标注为E;如果该文字独立成词,则标注为S。3.根据权利要求1或2所述面向初等数学领域的命名识别方法,其特征在于,在步骤S2中采用4-tag标注法标注当前文字在词中的位置。4.根据权利要求1或2所述面向初等数学领域的命名识别方法,其特征在于,所述步骤S3具体包括以下步骤:判断待识别的数学文本信息中每个词的语法范畴,确定其词性并加以标注,如果该词是动词,则标注为v;如果该词是名词,则标注为n;如果该词是连接词,则标注为nd;如果该词是字母,则标注为ws;如果该词是符号,则标注为wp。5.一种面向初等数学领域的命名识别系统,其特征在于,包括文本预...

【专利技术属性】
技术研发人员:林辉
申请(专利权)人:成都准星云学科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1