【技术实现步骤摘要】
医学文本OCR方法及系统
本公开涉及光学字符识别和医学领域,具体涉及一种医学文本OCR方法及系统。
技术介绍
在医疗系统中有很多文件是以扫描件的方式存在,为了提取其中的信息,需要人工录入,或者使用机器识别。光学字符识别(OCR,OpticalCharacterRecognition)的发展有几十年的时间,目前已经有很多可以实用的系统,但是在医学系统中能实际使用的OCR系统仍然很少。在现有技术的技术方案中,光学字符识别(OCR)主要有两种处理方式,其一是基于单字分割的识别系统,其二是基于符号串的识别系统,基于字符串的识别系统大多使用深度学习模型。现有技术的缺点:医学文本中带有很多符号,不同于汉字的规整,各种符号的尺寸变化较大,识别率较低。因此,需要一种新的医学文本OCR方法。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开公开一种医学文本OCR方法及系统,能够对医学文本进行精确识别,从而明显改善医学文本OCR识别的效果。本公开的其他特性和优点将通过下面的详细描述变得显然, ...
【技术保护点】
1.一种医学文本OCR方法,其特征在于,包括:将医学文本图片初步识别为文本文件;按照预先定义的文本类型对文本文件进行分类,确定文本文件所属的文本类型;通过与文本文件所属的文本类型对应的专用OCR识别器对文本文件进行精确识别。
【技术特征摘要】
1.一种医学文本OCR方法,其特征在于,包括:将医学文本图片初步识别为文本文件;按照预先定义的文本类型对文本文件进行分类,确定文本文件所属的文本类型;通过与文本文件所属的文本类型对应的专用OCR识别器对文本文件进行精确识别。2.如权利要求1所述的方法,其中初步识别通过通用OCR识别器进行。3.如权利要求2所述的方法,其中通过常用语料和医学专用语料对通用OCR识别器进行模型训练。4.如权利要求1所述的方法,其中通过文本分类器对文本文件进行分类。5.如权利要求1或4所述的方法,其中预先定义的文本类型包括:检验单、医学影像报告、病史或检验报告单。6.如权利要求1所述的方法,其中OCR采...
【专利技术属性】
技术研发人员:丁浩洋,王磊,李明,
申请(专利权)人:天津新开心生活科技有限公司,天津开心生活科技有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。