【技术实现步骤摘要】
文本框标注方法、装置和存储介质
本申请涉及信息
,特别涉及一种文本框标注方法、装置和存储介质。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指通过扫描等光学输入方式将票据、报刊、书籍、文稿、证件及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的技术。OCR可以通过深度学习的方式实现。具体地,先将待识别图像提供给基于深度学习的文本框检测模型,获得该图像中的文本框位置信息,然后根据文本框位置信息对该图像进行剪切处理,获得待识别图像块,将该图像块提供给文本内容识别模型,获得该图像块中的文本内容。文本框检测模型的性能极大的影响着OCR的识别准确率,因而针对文本框检测模型的参数调优和验证测试显得尤为重要,在此过程中,需要使用大量的文本框标注信息。目前,文本框都是由技术人员手工进行标注,工作量大且耗时非常长,非常不利于文本框检测模型的参数调优和验证测试。
技术实现思路
本申请提供了一种文本框标注方法、装置和存储 ...
【技术保护点】
1.一种文本框标注方法,其特征在于,所述方法包括:/n获取图像中的多个文本框的位置信息;/n根据所述多个文本框的位置信息,确定所述多个文本框的属性名称;/n将所述多个文本框的位置信息和属性名称作为所述图像的文本框标注信息。/n
【技术特征摘要】
1.一种文本框标注方法,其特征在于,所述方法包括:
获取图像中的多个文本框的位置信息;
根据所述多个文本框的位置信息,确定所述多个文本框的属性名称;
将所述多个文本框的位置信息和属性名称作为所述图像的文本框标注信息。
2.如权利要求1所述的方法,其特征在于,所述获取图像中的多个文本框的位置信息,包括:
将所述图像输入文本框检测模型,获得所述图像中的多个文本框位置信息;
根据所述多个文本框位置信息获取所述图像中的多个文本框的位置信息。
3.如权利要求2所述的方法,其特征在于,所述根据所述多个文本框位置信息获取所述图像中的多个文本框的位置信息,包括:
在所述图像中显示所述多个文本框位置信息指示的文本框;
响应于对所述图像中显示的一个文本框的调整操作,调整所述一个文本框的位置;
响应于在所述图像中执行的框选操作,将所述框选操作对应的框选框作为文本框在所述图像中显示;
获取所述图像中显示的所有文本框的位置信息。
4.如权利要求1-3任一所述的方法,其特征在于,所述根据所述多个文本框的位置信息,确定所述多个文本框的属性名称,包括:
根据所述多个文本框的位置信息,按照指定排序规则对所述多个文本框进行排序,得到所述多个文本框的序号;
从序号与属性名称之间的对应关系中,获取第一文本框的序号对应的属性名称作为所述第一文本框的属性名称,所述第一文本框是所述多个文本框中的一个文本框。
5.如权利要求4所述的方法,其特征在于,所述根据所述多个文本框的位置信息,按照指定排序规则对所述多个文本框进行排序,包括:
将所述多个文本框中长边的长度最大的一个文本框作为第二文本框,文本框的长边是两个上角点或两个下角点之间的边;
获取所述第二文本框的长边所在的直线与图像坐标系的横轴之间的夹角的角度作为目标角度,所述图...
【专利技术属性】
技术研发人员:彭梅英,鲁四喜,农高明,唐嘉龙,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。