文字信息的识别方法和装置制造方法及图纸

技术编号:11415166 阅读:78 留言:0更新日期:2015-05-06 15:01
本发明专利技术提出了一种文字信息的识别方法和装置,其中,文字信息的识别方法,包括:接收用户输入的文字信息,并从文字信息中获取到对应的元素;基于元素生成识别结果集合;以及基于预设算法对识别结果集合中的识别结果进行处理,以输出目标识别结果。本发明专利技术实施例的文字信息的识别方法和装置,通过笔画预分割器准确地对用户输入的文字信息进行笔画分割获取到对应的元素,并根据相似度生成识别结果集合,以及根据预设语言模型构造马尔可夫链,获取其中生成概率最高的路径对应的信息作为目标识别结果,在用户不受限地在手写区域输入文字信息的情况下,能够准确地识别用户输入的文字信息,有效地提高了识别的准确率。

【技术实现步骤摘要】
文字信息的识别方法和装置
本专利技术涉及计算机
,尤其涉及一种文字信息的识别方法和装置。
技术介绍
手写识别是指将手写输入时产生的有序轨迹信息转化为文字信息的过程,即手写轨迹的坐标序列到文字信息的一个映射过程,是人机交互最自然、最方便的手段之一。随着智能手机、平板电脑等智能工具的普及,手写识别技术的应用也越来越广泛。目前,很多输入法应用软件都支持手写输入方式,用户可通过手写输入笔画序列,应用软件可将笔画序列识别为文字信息,从而实现文字的输入。但是,如果用户一下输入多个文字,且输入的方式不是正常的从左至右的输入方式,而是例如从下至上等非正常的输入方式,就会降低文字信息的识别率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种文字信息的识别方法。该方法在用户不受限地在手写区域输入文字信息的情况下,能够准确地识别用户输入的文字信息,有效地提高了识别的准确率。本专利技术的第二个目的在于提出一种文字信息的识别装置。为达上述目的,根据本专利技术第一方面实施例提出了一种文字信息的识别方法,包括:接收用户输入的文字信息,并从所述文字信息中获取到对应的元素;基于所述元素生成识别结果集合;以及基于预设算法对所述识别结果集合中的识别结果进行处理,以输出目标识别结果。本专利技术实施例的文字信息的识别方法,通过笔画预分割器准确地对用户输入的文字信息进行笔画分割获取到对应的元素,并根据相似度生成识别结果集合,以及根据预设语言模型构造马尔可夫链,获取其中生成概率最高的路径对应的信息作为目标识别结果,在用户不受限地在手写区域输入文字信息的情况下,能够准确地识别用户输入的文字信息,有效地提高了识别的准确率。为达上述目的,根据本专利技术第二方面实施例提出了一种文字信息的识别装置,包括:获取模块,用于接收用户输入的文字信息,并从所述文字信息中获取到对应的元素;生成模块,用于基于所述元素生成识别结果集合;以及处理模块,用于基于预设算法对所述识别结果集合中的识别结果进行处理,以输出目标识别结果。本专利技术实施例的文字信息的识别装置,通过笔画预分割器准确地对用户输入的文字信息进行笔画分割获取到对应的元素,并根据相似度生成识别结果集合,以及根据预设语言模型构造马尔可夫链,获取其中生成概率最高的路径对应的信息作为目标识别结果,在用户不受限地在手写区域输入文字信息的情况下,能够准确地识别用户输入的文字信息,有效地提高了识别的准确率。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1为根据本专利技术一个实施例的文字信息的识别方法的流程图。图2为根据本专利技术一个实施例的手写输入的效果示意图。图3为根据本专利技术一个实施例的通过笔画预分割器获得元素的效果示意图。图4为根据本专利技术一个实施例的马尔可夫链的效果示意图。图5为根据本专利技术一个实施例的文字信息的识别装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的文字信息的识别方法和装置。图1为根据本专利技术一个实施例的文字信息的识别方法的流程图。如图1所示,该文字信息的识别方法包括:S101,接收用户输入的文字信息,并从文字信息中获取到对应的元素。在本专利技术的实施例中,可接收用户输入的文字信息,然后从文字信息中获取到对应的元素。具体地,可通过笔画预分割器对接收到的文字信息进行笔画分割,获得多个元素。例如:如图2所示,用户在输入区域不规则地手写“你好吗”三个字,然后应用软件可通过笔画预分割器对“你好吗”这三个字进行笔画分割,分别获得如图3所示的六个元素。S102,基于元素生成识别结果集合。在获得元素之后,可通过单字识别引擎,对获得的元素进行识别,获得初步识别结果。在获得初步识别结果后,可计算初步识别结果中的字符与预设字库中字符的相似度,从初步识别结果中删除相似度低于预设阈值的字符,以获得识别结果集合。其中,预设字库可包括笔迹模型库。举例来说,图3所示的六个元素,可通过单字识别引擎进行识别,初步识别结果可包括“个”、“尔”、“女”、“子”、“口”、“马”、“你”、“们”、“妆”、“好”、“奸”、“扣”、“吗”、“鸣”、“女子”、“你好”等字符。然后计算上述字符与笔迹模型库中的字符相似度。例如初步识别结果中的字符“妆”与笔迹模型库中的字符“妆”的相似度低于预设阈值如60%,则可将识别结果中的字符“妆”删除。同理,可删除识别结果中的字符“扣”。当然,也可以计算每个识别结果中的字符之间的相对相似度,删除不相似的识别结果。例如:初步识别结果中的字符“个”、“尔”与字符“你”进行对比,初步识别结果中的字符“你”与笔迹模型库中的字符“你”的相似度高于初步识别结果中的字符“个”、“尔”与笔迹模型库中的字符“你”的相似度,因此可删除字符“个”、“尔”,保留“你”。同理,可保留字符“你”,删除字符“们”。最终,获得的识别结果集合为“女”、“子”、“你”、“好”、“吗”、“鸣”、“女子”、“你好”。S103,基于预设算法对识别结果集合中的识别结果进行处理,以输出目标识别结果。在获得识别结果集合后,可基于预设算法对识别结果集合中的识别结果进行处理,以输出目标识别结果。具体地,根据预设语言模型和识别结果集合构造马尔可夫链。其中,马尔可夫链可包括至少一个路径。其中,预设语言模型可包括字典和词典,用于查询字符的词频;还可包括二元语法,用于查询字符之间的关联度。更具体地,可从预设语言模型中的字典和词典中查询识别结果集合中的字符的词频,获得分布概率;可从预设语言模型中的二元语法查询识别结果集合中的字符的关联度,获得状态转移概率。然后根据分布概率和状态转移概率构造马尔可夫链。其中,同一深度的字符的分布概率的总和为1,同一深度的字符的状态转移概率总和也为1。举例来说,如图4所示,字符下方的数字代表分布概率,每条路径上的数字表示字符的状态转移概率。字符“你”和“你好”为同一深度,字符“你”的分布概率为0.33,字符“你好”的分布概率为0.67,其总和为1。字符“你”转移到字符“女”的概率为0.2,转移到字符“女子”的概率为0.3,转移到字符“好”的概率为0.5,则三者相加总和为1。同理,字符“吗”的分布概率为0.8,与字符“吗”处于同一深度的字符“鸣”的分布概率为0.2,两者相加总和为1。然后,根据公式:路径的生成概率=分布平均概率*状态转移平均概率,计算出每条路径的生成概率。例如:“你好吗”这条路径的生成概率为:((0.67+0.80)/2)*(0.88/1)=0.6468。同理,可计算出其他路径的生成概率。应当理解的是,以上概率相关的数字仅为示例。最后,将计算出的路径的生成概率进行排序,最终获得路径的生成概率最高的路径对应的信息作为目标识别结果并输出。本例中,生成概率最高的路径对应的信息为“你好吗”,因此可确定目标识别结果为“你好吗”。本专利技术实施例的文字信息的识别方法,通过笔画预分割器准确地对用户输入的文字信息进行笔画分割获取本文档来自技高网...

【技术保护点】
一种文字信息的识别方法,其特征在于,包括:接收用户输入的文字信息,并从所述文字信息中获取到对应的元素;基于所述元素生成识别结果集合;以及基于预设算法对所述识别结果集合中的识别结果进行处理,以输出目标识别结果。

【技术特征摘要】
1.一种文字信息的识别方法,其特征在于,包括:接收用户输入的文字信息,并从所述文字信息中获取到对应的元素;基于所述元素生成识别结果集合;以及基于预设算法对所述识别结果集合中的识别结果进行处理,以输出目标识别结果;其中,所述基于预设算法对所述识别结果集合中的识别结果进行处理,以输出目标识别结果,包括:根据所述预设语言模型和所述识别结果集合构造马尔可夫链,其中,马尔可夫链包括至少一个路径;计算出每条路径的生成概率,将所述生成概率最高的路径对应的信息作为所述目标识别结果并输出;所述计算出每条路径的生成概率,包括:针对每条路径,获得当前路径上的识别结果的分布概率和状态转移概率,根据获得的所述分布概率和所述状态转移概率计算出当前路径的生成概率;所述基于所述元素生成识别结果集合,包括:对所述元素进行识别,获得初步识别结果;以及计算初步识别结果中的字符与预设字库中字符的相似度,从所述初步识别结果中删除相似度低于预设阈值的字符,以及计算所述初步识别结果中的字符之间的相对相似度,删除不相似的识别结果,以获得所述识别结果集合;所述预设字库包括笔迹模型库;字符之间的相对相似度,指的是将所述初步识别结果中的多个字符与预设字库中相同字符之间的相似度进行比对,得到的相似度。2.根据权利要求1所述的方法,其特征在于,所述从所述文字信息中获取到对应的元素,包括:通过笔画预分割器对所述文字信息进行...

【专利技术属性】
技术研发人员:李瑾徐翔
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1