基于正则表达式的文字后处理方法和装置制造方法及图纸

技术编号:7682511 阅读:223 留言:0更新日期:2012-08-16 05:51
本发明专利技术公开一种基于正则表达式的文字后处理方法和装置,属于文字识别领域。针对现有文字后处理方法存在的复用性和可扩展性较差等缺陷而设计。本发明专利技术所述方法包括:依据后处理准则语法设置当前识别区域的后处理准则表达式;解析该后处理准则表达式,得出树状数据结构;匹配识别结果;得出匹配值最高的文字后处理结果。本发明专利技术所述方法借鉴了正则表达式的语法元素,来描述具有不同后处理需求的文字识别结果的后处理准则,具有很好的通用性、扩展性和表述能力,使得对后处理准则的设置灵活便捷。

【技术实现步骤摘要】

本专利技术属于文字识别领域,尤其涉及一种基于正则表达式的文字后处理方法和装置
技术介绍
文字后处理是指在得 到识别结果候选项后,根据预设的后处理准则,筛选出最符合准则要求的识别结果字符串的过程。在以往的后处理方法中,后处理准则的设置和相应的准则匹配方法大多是根据实际需求设计的。例如,基于光学字符识别技术(OCR,OpticalCharacter Recognition)的文字后处理方法,其实质就是将文字图像转化为文字识别结果后,若文字内容具有某种特定语义,则可运用后处理准则来校正识别结果若文字为身份证号码,则后处理可将识别结果校正为18位数字;若文字内容为性别,则识别结果只能为男女,其他结果均为错误;类似地,若文字为其他类型的内容,则需要根据实际的需求再进行设计。因此,目前的文字后处理方法的复用性和可扩展性较差,不能灵活推广到新的需求中。正则表达式,以其具有较强的描述能力,扩展性强等特点,被广泛的用在文本编辑器或其他类似的文字处理工具中,通常被用来检索和/或替换那些符合某个模式的文本内容,其匹配准则属于完全匹配。若将其运用到文字后处理中,当候选字符中没有完全匹配的字符时,就无法得本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:王晓健
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1