知识感知的文本识别方法和系统技术方案

技术编号:24458558 阅读:31 留言:0更新日期:2020-06-10 16:17
本发明专利技术提供一种知识感知的文本识别方法和系统。所述知识感知的文本识别方法包括文本检测、文字识别和文本理解。通过检测图片或视频中的文本信息,提取文字并得出识别结果,再将文字识别结果进行判断和修正,有利于提升垂直领域的识别精确度。所述知识感知的文本识别系统包括文本检测单元、文本识别单元和文本理解单元。通过三个模块对图片或视频中的文本进行检测识别并判断修正,得到最终识别结果。本发明专利技术提供的文本识别系统计算速度快,专业性强,并且输出的识别结果准确度高。

Text recognition method and system based on knowledge perception

【技术实现步骤摘要】
知识感知的文本识别方法和系统
本专利技术大致涉及图像中文本识别的方法和系统,属于图像识别领域。
技术介绍
文本识别(OCR技术,OpticalCharacterRecognition,光学字符识别)是利用计算机自动识别字符的技术,能够将图像中不可复制的文字转换成可编辑的文字形式,是模式识别应用的一个重要领域。在目前大数据背景下,文字识别作为一种将纸质文档快速转化为电子文档的技术而备受欢迎。文本识别已经在身份证识别、名片识别、票据识别、证件识别、护照识别、营业执照识别等等领域具有广泛的应用,并且OCR系统可以提供多种形式服务,如微信小程序、API接口等。通常在垂直领域涉及大量的单据数据,如在医疗领域包括化验单、检验单、生化单据、药盒、CT检查单、B超单等。但是这些数据主要以纸质文件的形式出现,计算机无法有效的处理,需要将其转化为计算机可以有效存储和处理的形式。因此在垂直领域有大量的文本识别的需求,如将图片中的项目对应的名称、结果和参考值提取出来,或者将单据上的其他文本信息提取出来,转换为文本形式进行存储。以便于后续的模块对数据进行处理,如统计展现、数据分析和智能诊断等应用。在智能时代,人工智能通常是分领域来实现智能的。通常垂直领域的人工智能需要大量的相关数据,而有些领域如金融、医疗等存在数据孤岛问题。并且更多的数据以图片或纸质文件的方式进行存储的,如化验数据、治疗数据等。而这些数据包含多种来源,包括文献、垂直网站和相关数据。而当前垂域数据主要分散的存储在不同的纸质文件中,很难将这些数据整合到一起,但是这些相关的数据都会以纸质的方式保存在患者手中。因此,如何更好的提取和利用这些垂域的数据,以实现该领域的智能化成为当前研究的热点。当前OCR系统主要分为两类:(1)传统的基于统计和模板的OCR技术;(2)基于深度学习的OCR技术。传统的OCR技术主要基于统计和模板实现,这类方法将OCR分为图片角度的识别、文本切分、字符切分和字符识别四个主要的模块,前一个模块的结果传递给后续模块进行。但是传统方法的主要问题包括:(1)错误传递:前面模块识别错误,则后续模块会继续使用之前模块的结果,造成错误错递;(2)标准数据复杂:需要对每个模块进行数据的标注,比如标注图片的角度、标注图片中的字符串的区域、切分字符等,每一张图片需要在不同维度上标准多种数据;(3)泛化性差:需要每一类单据进行单独的训练,指定单据需要识别的区域等信息,扩展到其他格式的单据时,识别结果较差。近期,随着深度学习技术的快速发展,基于深度神经网络的OCR技术得到了广泛的应用。也衍生出了很多相关产品,如基于百度文字识别API等。但是通用的OCR技术在垂直领域存在一些挑战:(1)单据格式多样:化验单据包含多种类型的字符,包括汉字、数字、特殊符号等,并且这些数据往往是混在一起的;(2)图片质量不高:单据主要使用手机等方式进行拍摄,存在大量质量较低的图片,这些数据的检测容易出错;(3)垂直领域敏感性:图片中包含的文字往往是领域相关的,并不是常用的词、句等信息,因此容易出现识别错误;(4)训练数据有限:深度神经网络需要使用大量的标注数据,通常会通过一个网络识别出图片的角度,然后进行调整,然后标注出文字的区域和字图切分,最后进行文字的识别,但是训练这些网络需要大量的人工成本。
技术介绍
部分的内容仅仅是专利技术人所知晓的技术,并不当然代表本领域的现有技术。
技术实现思路
针对垂直领域数据OCR系统存在的几个主要问题,本专利技术提供一种知识感知的文本识别方法(Knowledge-AwareOCR)。本专利技术提供的方法采用远距离监督数据和丰富的字库来作为训练数据,以解决训练数据的需求和多种格式的字符识别不准确的问题。同时,利用垂直领域感知的语言模型和垂直领域知识图谱对识别的结果进行优化,从而得到正确的结果。知识感知的语言模型基于垂直领域网站、论坛获取的大量文本数据训练,得到字级别的向量表示和组合模型。垂直领域知识图谱则基于专家知识设计本体。然后采用自动和半自动的方法从已有的结构化、半结构化和无结构化数据中自动的抽取和构建知识图谱。知识图谱中包含大量领域相关的词汇,如实体名、关系名等。这些词汇可以结合语言模型对识别的结果进行识别和修正。本专利技术提供的知识感知的文本识别方法,包括:文本检测,检测图片或视频中的文本信息;文字识别,对文本信息进行文字提取并得出识别结果;文本理解,对文字识别的结果利用语言模型和知识图谱进行判断和修正,得出最终识别结果。文本检测可以看成特殊的目标检测,但它有别于通用目标检测。在通用目标检测中,每个目标都有定义好的边界框,文本检测需要正确检出需要覆盖整个文本长度,且评判的标准不同于通用目标检测,所以通用的目标检测方法并不适用文本检测。并且由于自然场景图像中的文字展现形式极其丰富,因此其难度远大于扫描文档图像中的文字识别。文字识别是对文本检测出的文本信息进行文字提取并识别结果。在自然场景图像中的文字背景相对复杂,字符像素的值与背景像素的值非常接近,图片分辨率不同以及容易产生失真和几何变形,这些因素都会增加识别难度。文字识别得出识别结果,并对结果进行进一步判断和修正,有助于得到更准确的最终识别结果。文本理解是对文字识别结果的进一步优化的过程,垂直领域的文本识别需要较高的准确度,文本理解通过判断并修正文字识别结果,能够显著提高垂直领域的文本识别的效果。根据本专利技术的一个方面,所述文本检测包括图片或视频中文本位置的提取和/或长度的确定。根据本专利技术的一个方面,所述文本位置的提取包括:1)检测小尺度文本框;2)循环连接文本框;3)文本行边细化。根据本专利技术的一个方面,所述文本检测基于深度卷积神经网络(CNN)进行检测。优选地,所述文本检测采用CTPN和/或yolo-v3两种网络模型完成。卷积神经网络(CNN,Convolutionalneuralnetwork)是一种带有卷积结构的深度神经网络,通过多层网络结构,卷积运算、降采样来实现对信号深层信息的提取,它的卷积结构可以减少深层网络的内存量,降低网络参数的数量,缓解模型的过拟合问题。CNN的灵感来源是模仿人类大脑的特点,构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,通过多个层级的组合,最终在顶层做出分类。卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变形的二维图形,它较一般神经网络在图像处理方面有如下优点:a)输入图像和网络拓扑结构能很好的吻合;b)特征提取和模式分类同时进行,并同时在训练中产生;c)权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。CTPN(ConnectionistTextProposalNetwork)把RNN(RecurrentNeuralNetworks,循环神经网络)引入检测问题,先用CNN得到深度特征,然后用固定宽度的anchor来检测textproposal(文本线的一部分),并把同一行的ancho本文档来自技高网
...

【技术保护点】
1.一种知识感知的文本识别方法,其特征在于,所述文本识别方法包括:/n文本检测,检测图片或视频中的文本信息;/n文字识别,对文本信息进行文字提取并得出识别结果;/n文本理解,对文字识别的结果利用语言模型和知识图谱进行判断和修正,得出最终识别结果。/n

【技术特征摘要】
1.一种知识感知的文本识别方法,其特征在于,所述文本识别方法包括:
文本检测,检测图片或视频中的文本信息;
文字识别,对文本信息进行文字提取并得出识别结果;
文本理解,对文字识别的结果利用语言模型和知识图谱进行判断和修正,得出最终识别结果。


2.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本检测包括图片或视频中文本位置的提取和/或长度的确定。


3.根据权利要求2所述的知识感知的文本识别方法,其特征在于,所述文本位置的提取包括:
1)检测小尺度文本框;
2)循环连接文本框;
3)文本行边细化。


4.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述基于深度卷积神经网络(CNN)进行检测;优选地,文本检测采用CTPN和/或yolo-v3两种网络模型完成。


5.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本识别的方法为基于深度卷积神经网络(CNN)进行识别;优选地,通过LSTM和CTC结合的网络模型进行识别。


6.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本理解包括:
获取文字识别结果,所述文字识别结果包括一个或两个以上的候选结果;
通过第一语言模型计算每个候选结果的置信度;和
获取置信度最大的侯选结果。


7.根据权利要求6所述的知识感知的文本识别方法,其特征在于,所述计算每个候选结果的置信度包括:
候选结果分词;
计算候选结果的每个分词的置信度并相加得分,即为候选结果的置信度。


8.根据权利要求6或7所述的知识感知的文本识别方法,其特征在于,所述文本理解还包括:
判断所获取的置信度最大的侯选结果的最大置信度是否大于给定阈值(T);和
文本替换;
当大于给定阈值时,则该本文结果作为最终的识别结果;当等于或小于给定阈值时,则需要进行文本替换。


9.根据权利要求8所述的知识感知的文本识别方法,其特征在于,所述文本替换包括:
对置信度等于或小于给定阈值的文本进行分词,按照分词顺序依次进行知识图谱比对;
判断第一顺位分词是否在知识图谱中出现;
如果出现,则确定该分词不予替换,并进入下一顺位的分词判断;
如果未出现,则在知识图谱中搜索候选替换词并完成替换;
每一次文本替换的过程只进行到完成替换一个分词时则终止,此时得到的替换文本输入第一语言模型计算其置信度并判断其是否大于给定阈值(T);
如果大于给定阈值,则作为最终的文本识别结果输出;
如果小于给定阈值,则将替换文本作为文本替换的输入文本进行第二次文本替换,直至所得到的替换文本的置信度大于给定阈值。


10.根据权利要求9所述的知识感知的文本识别方法,其特征在于,所述在知识图谱中搜索候选替换词并完成替换包括:
通过编辑距离模型在知识图谱中搜索出N个候选替换词并计算出每个候选词的编辑距离的损失(loss_edit);
通过字形相似度模型计算出每个候选替换词的字形相似度的损失(loss_char);
通过第二语言模型计算出每个侯选替换词替换后的文本的语言模型损失(loss_lm);
对每个候选替换词所对应的编辑距离的损失、相似度的损失和语言模型损失进行加权平均,得到加权平均损失最小的候选结果作为替换词进行替换。


11.根据权利要求10所述的知识感知的文本识别方法,其特征在于,所述字通过字形相似度模型计算出每个候选替换词的字形相似度的损失包括:基于CNN实现的字形表示方法,得到每个字形对应的向量表示,计算候选替换词和被替换词的字向量表示的欧式距离。


12.根据权利要求1-11所述的知识感知的文本识别方法,其特征在于,所述图片或视频为医学领域的图片或视频;和/或,所述知识图谱为医学领域的相关数据。


13.一种知识感知的文本识别系统,其特征在于,包括:
文本检测单元,用于检测图片或视频中的文本信息;
文本识别单元,用于提取并识别文本信息中...

【专利技术属性】
技术研发人员:张闻欣张勇叶继兴
申请(专利权)人:杭州翼心信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1