当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于隐马尔科夫模型的联机手写化学符号识别方法技术

技术编号:15330435 阅读:114 留言:0更新日期:2017-05-16 13:54
一种基于隐马尔科夫模型的联机手写化学符号识别方法,解决任意书写者在任意设备上联机书写的化学符号在线识别的问题。该方法构建了识别联机手写化学符号的处理框架,采取分层处理、逐级优化的策略。基于支持向量机的方法选用网格特征和外围轮廓特征区分有机环符号及非环符号,分类错误率控制在千分之二以下;基于隐马尔可夫模型的方法识别具体符号,准确率在百分之九十以上。为了提高识别精度设计了一套预处理流程,并采取了候选结果可信度、化学符号邻接矩阵、原子元素守恒检测等后处理措施。本发明专利技术方法经Tablet PC、数位板、鼠标模拟笔输入等数据源上的实验证明具有普遍意义,具有系统性和完备性,可用于联机手写化学符号识别领域。

An online handwritten chemical symbol recognition method based on Hidden Markov model

An on-line handwritten chemical symbol recognition method based on Hidden Markov model is proposed to solve the problem of on-line recognition of chemical symbols written online by any writer on any device. The method constructs a framework for recognizing on-line handwritten chemical symbols, and adopts the strategy of hierarchical processing and gradual optimization. The support vector machine method based on the grid characteristics and external contour features to distinguish between organic and non ring ring symbol symbol, the classification error rate of 2/1000 in the control; identification of hidden Markov model method of specific symbols based on the accuracy rate above ninety percent. In order to improve the recognition accuracy, a set of preprocessing flow is designed, and the post-processing measures of candidate result credibility, chemical symbol adjacency matrix and atomic element conservation detection are adopted. The method of the invention by Tablet PC, digital board, mouse pen input data source simulation experiments on the universal significance, is systematic and complete, can be used for online handwritten chemical symbols recognition.

【技术实现步骤摘要】
一种基于隐马尔科夫模型的联机手写化学符号识别方法
本专利技术属于模式识别与人机交互领域,具体涉及一种基于隐马尔科夫模型的联机手写化学符号识别方法。
技术介绍
化学公式(化学方程式)是表示化学反应规律的式子,是化学及化学活动最重要的表现形式。化学公式和数学公式一样,是自然科学领域应用非常广泛的一种表达式。随着信息化社会的发展,越来越多的化学相关工作转移到电子设备上完成。然而如何快速、高效地将化学知识特别是化学公式录入到计算机中仍然是一个难题。目前,化学公式主要还是依靠专业软件进行录入,这类软件共有的缺点包括界面复杂、效率低下、操作繁琐、设备依赖。由于存在上述缺点,传统的基于鼠标、键盘的录入方式严重制约了化学知识特别是化学公式的数字化水平,一些正常的应用受到限制。因此,探索新的、快速高效的化学信息录入方式成为当务之急。与传统方式相比,基于电子笔的手写录入因其操作自然、界面简洁的特点更符合这一要求。联机手写化学符号的识别问题独立于化学公式分析、理解及应用。其主要任务包括:高精度识别字母、数字、操作符、有机环等各类化学符号,同时传递有用的版面信息和时间序列给后续操作。因此提出一套比较完整的联机手写化学符号识别方法框架具有两方面的意义:一是为设计并实现一个独立的化学符号识别器打下基础,该识别器可以作为底层引擎提供给同类研究使用。二是用实时识别的结果支持公式级、物质级的语法分析和化学规则校验。在整个联机手写化学公式处理问题中,符号识别起到核心作用,实现将用户输入的数字墨水“翻译”为可重用化学信息的功能。进行相关研究的难点包括:(1)化学符号集合规模较大,且其中的相似结构很多;(2)符号的大小、位置隐含着某些化学含义,识别出符号后还需要分析和传递这些隐含信息;(3)手写样本变形严重,笔划质量参差不齐。因此,准确识别手写化学符号是一项挑战性工作。
技术实现思路
本专利技术目的是解决联机手写化学符号的识别问题,提供一种基于隐马尔科夫模型的联机手写化学符号识别方法,以正确识别不同用户通过不同设备输入的手写化学符号。本专利技术采取分级处理、逐层优化的策略解决
技术介绍
中提到的难点。首先利用全局特征将整个问题拆分为无机符号(非环)识别和有机符号(环)识别两个子问题,在小集合上再提取精细局部特征进一步分类。这种分级处理的思想大幅度降低了匹配模型的性能消耗,提高了识别流程的可用性。此外还为识别主体提供了预处理和后处理等辅助技术支撑,两级优化的策略也保证了识别结果的可靠性。为实现本专利技术目的需要着重从以下几方面考虑:1、准确识别输入符号的能力。在将人的任意手写输入转换为数字结果的过程中,难免发生错误。作为输入的最基本单元,手写符号的识别准确率是评价系统可用性的重要指标。对于不同的应用系统,尽管标准不同,但都存在一个识别率的临界区间。当单符号的识别率未达到该边界值时,整段输入都将是不可读的。对本专利技术而言,提高化学符号识别率有两种策略:一是尽量选取有效的特征,规避书写变形带来的干扰;二是在识别后给出一个结果候选队列,利用化学规则遴选可信的结果。总之,联机手写化学符号必须具有较高的识别率才能满足实际应用的要求。2、用户无关的能力。对于化学公式处理系统而言,同一套内核应该可以识别不同书写者的输入。即使公式的书写风格不一致,如笔划顺序不一、符号大小有异等,系统也应该正确辨识。一方面,加大训练样本规模可以涵盖更多的特殊情况。另一方面,引入适当的预处理机制也可以最大限度的消除多次书写之间的差异,统一符号规格。这些措施都有助于使系统具备用户无关的处理能力。本专利技术技术方案本专利技术在综合考虑以上几点的基础上,提出了一种基于隐马尔科夫模型的联机手写化学符号识别方法,该方法包括以下步骤:第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。本专利技术的具体处理流程如下:1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理定义的联机手写化学符号的集合与分类包括10个阿拉伯数字、24个大写字母、20个小写字母、10个化学操作符和38个有机环符号,这里选取以下102个化学符号作为处理对象。定义的采集标准包括:样本代号命名规则、采集环境、书写规范程度和书写时间。这样采集到的符号样本满足多源异构的要求,具备代表性。对符号标签的命名规则如下:编码SXY表示S区内横坐标为X、纵坐标为Y的符号。例如000代表符号‘0’,212代表符号109代表‘化学键’,形式可以是任意方向、任意长度的线段。样本代号(label)按照信息块码方式编制,是一个长度为15的字符串,其中左起第1位代表样本采集环境:T代表平板电脑、H代表数位板、P代表普通个人电脑;第2位代表样本的书写规范程度:S代表非常标准(Standard)的符号、N代表正常(Normal)书写的符号、F代表自由(Freestyle)书写的符号;第3-6位代表样本书写者编号;第7-9位代表化学符号编码,其中第7位是符号所属的区间:0区存放数字和字母、1区存放操作符和化学键、2区存放有机环结构;第8-9位代表该符号在所属区间(一个10*10列表)中的位置;第10-15位代表按书写者区分的样本编号。对采集到的符号进行预处理是指,对采集到的初始符号样本进行一系列符合其特点的预处理操作,包括:去除重复点、插值补点、检测锐点、去钩和平滑,从而优化其质量,使符号样本满足后续处理的需要。流程如图1所示。预处理的第一步是去除重复点,使用最小距离过滤法,以两个采样点Pi(xi,yi)和Pj(xj,yj)为例,如果它们的欧几里德距离D小于一定阈值,则只保留一个,另一个去除。如下式所示:第二步是插值补点,假设给定笔划采样点序列为S={P1(x1,y1),…,PN(xN,yN)),计算点间平均距离d如下:其中,D(i,i+1)为点Pi(xi,yi)与Pi+1(xi+1,yi+1)之间的欧几里德距离。设定d=Len*70%为笔划中任意连续的两点间允许出现的最大间隔,则如果两点之间距离大于d,采用下面公式计算其间新加点的坐标:第三步使用5个有效点确定锐点的位置。利用其两两夹角计算ΦA=|Φ1+Φ2-Φ3-Φ4|,如果ΦA超过预先设定的阈值ΦT=60°,那么认为点3是要找的锐点。最后,令之前找到的锐点为控制点,对其它点使用平均平滑算法。即用连接点1与点3之间直线上的点代替原来的点2,同理用点2与点4之间直线上的点代替点3,直到遇到最后一个点。2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法所述的环、非环粗分类特征提取方法包括两种:第一种是将符号外接矩形分割为4×4的均匀网格,按照由上到下、由左到右的顺序依次计算位于每个子区域中坐标点的个数,经归一化处理后将得到的16维向量作为粗分类的网格特征。分别提取化学符号的网格特征和外围轮廓特征如图2所示。首先获取样本的外接矩形,即图2中的网格边界围成的区域。然后按照外接矩形本文档来自技高网
...
一种基于隐马尔科夫模型的联机手写化学符号识别方法

【技术保护点】
一种基于隐马尔科夫模型的联机手写化学符号识别方法,其特征在于该方法包括以下步骤:第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。

【技术特征摘要】
1.一种基于隐马尔科夫模型的联机手写化学符号识别方法,其特征在于该方法包括以下步骤:第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。2.根据权利要求1所述的方法,其特征在于第1步所述,定义的联机手写化学符号的集合与分类包括10个阿拉伯数字、24个大写字母、20个小写字母、10个化学操作符和38个有机环符号;定义的采集标准包括:样本代号命名规则、采集环境、书写规范程度和书写时间;这样采集到的符号样本满足多源异构的要求,具备代表性;所述的对采集到的符号进行预处理是指,对采集到的初始符号样本进行一系列符合其特点的预处理操作,包括:去除重复点、插值补点、检测锐点、去钩和平滑,从而使符号样本满足后续处理的需要。3.根据权利要求1所述的方法,其特征在于第2步所述的环、非环粗分类特征提取方法包括两种:一种是将符号外接矩形...

【专利技术属性】
技术研发人员:杨巨峰王恺许静陈丽怡
申请(专利权)人:南开大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1