An on-line handwritten chemical symbol recognition method based on Hidden Markov model is proposed to solve the problem of on-line recognition of chemical symbols written online by any writer on any device. The method constructs a framework for recognizing on-line handwritten chemical symbols, and adopts the strategy of hierarchical processing and gradual optimization. The support vector machine method based on the grid characteristics and external contour features to distinguish between organic and non ring ring symbol symbol, the classification error rate of 2/1000 in the control; identification of hidden Markov model method of specific symbols based on the accuracy rate above ninety percent. In order to improve the recognition accuracy, a set of preprocessing flow is designed, and the post-processing measures of candidate result credibility, chemical symbol adjacency matrix and atomic element conservation detection are adopted. The method of the invention by Tablet PC, digital board, mouse pen input data source simulation experiments on the universal significance, is systematic and complete, can be used for online handwritten chemical symbols recognition.
【技术实现步骤摘要】
一种基于隐马尔科夫模型的联机手写化学符号识别方法
本专利技术属于模式识别与人机交互领域,具体涉及一种基于隐马尔科夫模型的联机手写化学符号识别方法。
技术介绍
化学公式(化学方程式)是表示化学反应规律的式子,是化学及化学活动最重要的表现形式。化学公式和数学公式一样,是自然科学领域应用非常广泛的一种表达式。随着信息化社会的发展,越来越多的化学相关工作转移到电子设备上完成。然而如何快速、高效地将化学知识特别是化学公式录入到计算机中仍然是一个难题。目前,化学公式主要还是依靠专业软件进行录入,这类软件共有的缺点包括界面复杂、效率低下、操作繁琐、设备依赖。由于存在上述缺点,传统的基于鼠标、键盘的录入方式严重制约了化学知识特别是化学公式的数字化水平,一些正常的应用受到限制。因此,探索新的、快速高效的化学信息录入方式成为当务之急。与传统方式相比,基于电子笔的手写录入因其操作自然、界面简洁的特点更符合这一要求。联机手写化学符号的识别问题独立于化学公式分析、理解及应用。其主要任务包括:高精度识别字母、数字、操作符、有机环等各类化学符号,同时传递有用的版面信息和时间序列给后续操作。因此提出一套比较完整的联机手写化学符号识别方法框架具有两方面的意义:一是为设计并实现一个独立的化学符号识别器打下基础,该识别器可以作为底层引擎提供给同类研究使用。二是用实时识别的结果支持公式级、物质级的语法分析和化学规则校验。在整个联机手写化学公式处理问题中,符号识别起到核心作用,实现将用户输入的数字墨水“翻译”为可重用化学信息的功能。进行相关研究的难点包括:(1)化学符号集合规模较大,且其中 ...
【技术保护点】
一种基于隐马尔科夫模型的联机手写化学符号识别方法,其特征在于该方法包括以下步骤:第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。
【技术特征摘要】
1.一种基于隐马尔科夫模型的联机手写化学符号识别方法,其特征在于该方法包括以下步骤:第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。2.根据权利要求1所述的方法,其特征在于第1步所述,定义的联机手写化学符号的集合与分类包括10个阿拉伯数字、24个大写字母、20个小写字母、10个化学操作符和38个有机环符号;定义的采集标准包括:样本代号命名规则、采集环境、书写规范程度和书写时间;这样采集到的符号样本满足多源异构的要求,具备代表性;所述的对采集到的符号进行预处理是指,对采集到的初始符号样本进行一系列符合其特点的预处理操作,包括:去除重复点、插值补点、检测锐点、去钩和平滑,从而使符号样本满足后续处理的需要。3.根据权利要求1所述的方法,其特征在于第2步所述的环、非环粗分类特征提取方法包括两种:一种是将符号外接矩形...
【专利技术属性】
技术研发人员:杨巨峰,王恺,许静,陈丽怡,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。