【技术实现步骤摘要】
知识感知的文本识别方法和系统
本专利技术大致涉及图像中文本识别的方法和系统,属于图像识别领域。
技术介绍
文本识别(OCR技术,OpticalCharacterRecognition,光学字符识别)是利用计算机自动识别字符的技术,能够将图像中不可复制的文字转换成可编辑的文字形式,是模式识别应用的一个重要领域。在目前大数据背景下,文字识别作为一种将纸质文档快速转化为电子文档的技术而备受欢迎。文本识别已经在身份证识别、名片识别、票据识别、证件识别、护照识别、营业执照识别等等领域具有广泛的应用,并且OCR系统可以提供多种形式服务,如微信小程序、API接口等。通常在垂直领域涉及大量的单据数据,如在医疗领域包括化验单、检验单、生化单据、药盒、CT检查单、B超单等。但是这些数据主要以纸质文件的形式出现,计算机无法有效的处理,需要将其转化为计算机可以有效存储和处理的形式。因此在垂直领域有大量的文本识别的需求,如将图片中的项目对应的名称、结果和参考值提取出来,或者将单据上的其他文本信息提取出来,转换为文本形式进行存储。以便于后续的模块对数据进行处理,如统计展现、数据分析和智能诊断等应用。在智能时代,人工智能通常是分领域来实现智能的。通常垂直领域的人工智能需要大量的相关数据,而有些领域如金融、医疗等存在数据孤岛问题。并且更多的数据以图片或纸质文件的方式进行存储的,如化验数据、治疗数据等。而这些数据包含多种来源,包括文献、垂直网站和相关数据。而当前垂域数据主要分散的存储在不同的纸质文件中,很难将这些数据整合到一起,但是这 ...
【技术保护点】
1.一种知识感知的文本识别方法,其特征在于,所述文本识别方法包括:/n文本检测,检测图片或视频中的文本信息;/n文字识别,对文本信息进行文字提取并得出识别结果;/n文本理解,对文字识别的结果利用语言模型和知识图谱进行判断和修正,得出最终识别结果。/n
【技术特征摘要】
1.一种知识感知的文本识别方法,其特征在于,所述文本识别方法包括:
文本检测,检测图片或视频中的文本信息;
文字识别,对文本信息进行文字提取并得出识别结果;
文本理解,对文字识别的结果利用语言模型和知识图谱进行判断和修正,得出最终识别结果。
2.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本检测包括图片或视频中文本位置的提取和/或长度的确定。
3.根据权利要求2所述的知识感知的文本识别方法,其特征在于,所述文本位置的提取包括:
1)检测小尺度文本框;
2)循环连接文本框;
3)文本行边细化。
4.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述基于深度卷积神经网络(CNN)进行检测;优选地,文本检测采用CTPN和/或yolo-v3两种网络模型完成。
5.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本识别的方法为基于深度卷积神经网络(CNN)进行识别;优选地,通过LSTM和CTC结合的网络模型进行识别。
6.根据权利要求1所述的知识感知的文本识别方法,其特征在于,所述文本理解包括:
获取文字识别结果,所述文字识别结果包括一个或两个以上的候选结果;
通过第一语言模型计算每个候选结果的置信度;和
获取置信度最大的侯选结果。
7.根据权利要求6所述的知识感知的文本识别方法,其特征在于,所述计算每个候选结果的置信度包括:
候选结果分词;
计算候选结果的每个分词的置信度并相加得分,即为候选结果的置信度。
8.根据权利要求6或7所述的知识感知的文本识别方法,其特征在于,所述文本理解还包括:
判断所获取的置信度最大的侯选结果的最大置信度是否大于给定阈值(T);和
文本替换;
当大于给定阈值时,则该本文结果作为最终的识别结果;当等于或小于给定阈值时,则需要进行文本替换。
9.根据权利要求8所述的知识感知的文本识别方法,其特征在于,所述文本替换包括:
对置信度等于或小于给定阈值的文本进行分词,按照分词顺序依次进行知识图谱比对;
判断第一顺位分词是否在知识图谱中出现;
如果出现,则确定该分词不予替换,并进入下一顺位的分词判断;
如果未出现,则在知识图谱中搜索候选替换词并完成替换;
每一次文本替换的过程只进行到完成替换一个分词时则终止,此时得到的替换文本输入第一语言模型计算其置信度并判断其是否大于给定阈值(T);
如果大于给定阈值,则作为最终的文本识别结果输出;
如果小于给定阈值,则将替换文本作为文本替换的输入文本进行第二次文本替换,直至所得到的替换文本的置信度大于给定阈值。
10.根据权利要求9所述的知识感知的文本识别方法,其特征在于,所述在知识图谱中搜索候选替换词并完成替换包括:
通过编辑距离模型在知识图谱中搜索出N个候选替换词并计算出每个候选词的编辑距离的损失(loss_edit);
通过字形相似度模型计算出每个候选替换词的字形相似度的损失(loss_char);
通过第二语言模型计算出每个侯选替换词替换后的文本的语言模型损失(loss_lm);
对每个候选替换词所对应的编辑距离的损失、相似度的损失和语言模型损失进行加权平均,得到加权平均损失最小的候选结果作为替换词进行替换。
11.根据权利要求10所述的知识感知的文本识别方法,其特征在于,所述字通过字形相似度模型计算出每个候选替换词的字形相似度的损失包括:基于CNN实现的字形表示方法,得到每个字形对应的向量表示,计算候选替换词和被替换词的字向量表示的欧式距离。
12.根据权利要求1-11所述的知识感知的文本识别方法,其特征在于,所述图片或视频为医学领域的图片或视频;和/或,所述知识图谱为医学领域的相关数据。
13.一种知识感知的文本识别系统,其特征在于,包括:
文本检测单元,用于检测图片或视频中的文本信息;
文本识别单元,用于提取并识别文本信息中...
【专利技术属性】
技术研发人员:张闻欣,张勇,叶继兴,
申请(专利权)人:杭州翼心信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。