【技术实现步骤摘要】
本专利技术属于文字识别领域,尤其涉及一种基于正则表达式的文字后处理方法和装置。
技术介绍
文字后处理是指在得 到识别结果候选项后,根据预设的后处理准则,筛选出最符合准则要求的识别结果字符串的过程。在以往的后处理方法中,后处理准则的设置和相应的准则匹配方法大多是根据实际需求设计的。例如,基于光学字符识别技术(OCR,OpticalCharacter Recognition)的文字后处理方法,其实质就是将文字图像转化为文字识别结果后,若文字内容具有某种特定语义,则可运用后处理准则来校正识别结果若文字为身份证号码,则后处理可将识别结果校正为18位数字;若文字内容为性别,则识别结果只能为男女,其他结果均为错误;类似地,若文字为其他类型的内容,则需要根据实际的需求再进行设计。因此,目前的文字后处理方法的复用性和可扩展性较差,不能灵活推广到新的需求中。正则表达式,以其具有较强的描述能力,扩展性强等特点,被广泛的用在文本编辑器或其他类似的文字处理工具中,通常被用来检索和/或替换那些符合某个模式的文本内容,其匹配准则属于完全匹配。若将其运用到文字后处理中,当候选字符中没有完全匹 ...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:王晓健,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。