【技术实现步骤摘要】
文本分类模型的训练方法、文本内容的识别方法及装置
[0001]本公开涉及人工智能
,具体为深度学习、计算机视觉
,可应用于光学字符识别(Optical Character Recognition,OCR)、文字识别等场景,尤其涉及一种文本分类模型的训练方法、文本内容的识别方法及装置。
技术介绍
[0002]人工智智能(Artificial Intelligence,AI)技术被应用于对图像文本内容的识别场景,如拍照、扫描书本、合同、单票类、试卷、表格等图像的文本内容识别场景。具体的,当AI技术被应用于对试卷中的答题内容进行识别时,可以基于文本检测方法实现。
[0003]目前,在基于文本检测方法对图像进行检测时,通常是对图像中的各文字字符进行检测。
[0004]然而,不同的图像之间可能存在差异,而基于文本检测方法对图像进行检测,可能使得检测的准确性偏低的技术问题。
技术实现思路
[0005]本公开提供了一种用于提高检测准确性的文本分类模型的训练方法、文本内容的识别方法及装置。 >[0006]根据本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本分类模型的训练方法,包括:获取待训练图像集合,所述待训练图像集合中包括至少一个样本图像,每一样本图像的每一文本行具有标注位置信息和标注的属性信息,所述属性信息表征文本行中的文本为手写文本或者印刷文本;根据每一样本图像,确定每一样本图像中每一文本行的预测位置信息和预测的属性信息;依据每一样本图像的每一文本行的标注位置信息和标注的属性信息、以及每一样本图像中每一文本行的预测位置信息和预测的属性信息,训练得到文本分类模型,其中,所述文本分类模型用于检测待识别图像中每一文本行的属性信息。2.根据权利要求1所述的方法,其中,根据每一样本图像,确定每一样本图像中每一文本行的预测位置信息和预测的属性信息,包括:根据每一样本图像,确定每一样本图像的特征图,并根据每一样本图像的特征图生成每一样本图像的各文本框,其中,文本框中包括样本图像中的文本行中的文本内容;根据每一文本行的文本框确定每一文本行的预测位置信息,并根据每一文本行所归属的样本图像的特征图、以及每一文本行的预测位置信息确定每一文本行的预测的属性信息。3.根据权利要求2所述的方法,其中,根据每一文本行所归属的样本图像的特征图、以及每一文本行的预测位置信息确定每一文本行的预测的属性信息,包括:根据每一文本行的预测位置信息确定每一文本行的初始属性信息;根据每一文本行所归属的样本图像的特征图确定每一文本行的前景区域和背景区域,并根据每一文本行的前景区域和背景区域,对每一文本行的初始属性信息进行修正处理,得到每一文本行的预测的属性信息。4.根据权利要求3所述的方法,其中,前景区域中包括前景像素信息,背景区域中包括背景像素信息;根据每一文本行的前景区域和背景区域,对每一文本行的初始属性信息进行修正处理,得到每一文本行的预测的属性信息,包括:根据每一文本行的前景像素信息和背景像素信息,对每一文本行的背景区域进行背景区域抑制处理,得到每一文本行的抑制处理后的背景像素信息;根据每一文本行的前景像素信息以及抑制处理后的背景像素信息,对每一文本行的初始属性信息进行修正处理,得到每一文本行的预测的属性信息。5.根据权利要求2至4中任一项所述的方法,其中,根据每一文本行的文本框确定每一文本行的预测位置信息,包括:获取每一文本行的文本框的每一角点的角点位置信息;根据每一文本行的各角点位置信息确定每一文本行的文本框的中心位置信息,并确定每一文本行的文本框的中心位置信息为每一文本行的预测位置信息。6.根据权利要求1至5中任一项所述的方法,其中,依据每一样本图像的每一文本行的标注位置信息和标注的属性信息、以及每一样本图像中每一文本行的预测位置信息和预测的属性信息,训练得到文本分类模型,包括:获取每一样本图像的每一文本行的标注位置信息与预测位置信息两者之间的损失信息,并获取每一样本图像的每一文本行的标注的属性信息与预测的属性信息两者之间的损
失信息;根据每一样本图像的每一文本行的标注位置信息与预测位置信息两者之间的损失信息、以及每一样本图像的每一文本行的标注的属性信息与预测的属性信息两者之间的损失信息,进行监督学习处理,训练得到所述分类模型。7.根据权利要求1至6中任一项所述的方法,其中,获取待训练图像集合,包括:获取采集到的每一样本图像的像素信息,并确定各样本图像的像素信息的共同像素;根据所述共同像素对每一样本图像的像素进行归一化处理,并基于归一化处理后的各样本图像构建所述待训练图像集合。8.一种文本类型的分类方法,包括:获取待分类图像,基于预先训练的文本分类模型对所述待分类图像进行分类处理,得到所述待分类图像中每一文本行的属性信息;其中,所述属性信息表征文本行中的文本为手写文本或者印刷文本,所述文本分类模型是基于如权利要求1
‑
7中任一项所述的方法训练生成的。9.一种文本内容的识别方法,包括:获取待识别图像,基于预先训练的文本分类模型对所述待识别图像中的每一文本行进行分类处理,得到所述每一文本行的属性信息,其中,所述属性信息表征文本行中的文本为手写文本或者印刷文本,所述文本分类模型是基于如权利要求1
‑
7中任一项所述的方法训练生成的;根据所述每一文本行的属性信息获取用于识别所述每一文本行的文本识别模型,并基于所述每一文本行的文本识别模型对所述每一文本行进行文本识别处理,得到并输出所述待识别图像的文本内容。10.根据权利要求9所述的方法,其中,所述文本识别模型包括手写文本识别模型和印刷文本识别模型;属性信息为手写文本的文本行的文本识别模型为手写文本识别模型;属性信息为印刷文本的文本行的文本识别模型为印刷文本识别模型。11.一种文本分类模型的训练装置,包括:第一获取单元,用于获取待训练图像集合,所述待训练图像集合中包括至少一个样本图像,每一样本图像的每一文本行具有标注位置信息和标注的属性信息,所述属性信息表征文本行中的文本为手写文本或者印刷文本;确定单元,用于根据每一样本图像,确定每一样本图像中每一文本行的预测位置信息和预测的属性信息;训练单元,用于依据每一样本图像的每一文本行的标注位置信息和标注的属性信息、以及每一样本图像中每一文本行的预测位置信息和预测的属性信息,训练得到文本分类模型,其中,所述文本分类模型用于检测待识别图像中每一文本行...
【专利技术属性】
技术研发人员:刘珊珊,乔美娜,吴亮,吕鹏原,范森,章成全,姚锟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。