【技术实现步骤摘要】
一种文本行关键点定位方法、装置及存储介质
本专利技术涉及计算机
,尤其是涉及一种文本行关键点定位方法、装置及存储介质。
技术介绍
目前,现有的文本行关键点定位算法通常是基于热图的方式实现,如MaskR-CNN、OpenPose和CornerNet等。以MaskR-CNN为例,该算法在FasterR-CNN的基础上,额外地添加了一个Keypoint分支,用于预测关键点位置,并将每个关键点的位置建模为一个one-hot热图。但是现有的文本行关键点定位方法对文本行关键点定位的速度较慢,导致文本行关键点定位的效率较低。
技术实现思路
本专利技术提供一种文本行关键点定位方法、装置及存储介质,以解决现有的文本行关键点定位方法对文本行关键点定位的速度较慢,导致文本行关键点定位的效率较低的技术问题。本专利技术的第一实施例提供了一种文本行关键点定位方法,包括:建立文本行关键点定位图像库,并标注所述文本行关键点定位图像库中待定位文本行的左下、左上、右上和右下4个关键点,以4个所述关键点的最小包围圈作为每
【技术保护点】
1.一种文本行关键点定位方法,其特征在于,包括:/n建立文本行关键点定位图像库,并标注所述文本行关键点定位图像库中待定位文本行的左下、左上、右上和右下4个关键点,以4个所述关键点的最小包围圈作为每行文本的标注框;/n设计Res+模块替换Key YOLO网络结构中的DarkNet-53模块,以得到Key YOLO模型,采用不对称损失函数对所述Key YOLO模型进行训练;/n将所述关键点定位图像库输入至所述Key YOLO模型中,通过所述Key YOLO模型分别输出每个所述极坐标系的原点位置到所述4个关键点的预测距离;/n根据所述标注框的边长确定三个极坐标系的原点位置,分别以 ...
【技术特征摘要】
1.一种文本行关键点定位方法,其特征在于,包括:
建立文本行关键点定位图像库,并标注所述文本行关键点定位图像库中待定位文本行的左下、左上、右上和右下4个关键点,以4个所述关键点的最小包围圈作为每行文本的标注框;
设计Res+模块替换KeyYOLO网络结构中的DarkNet-53模块,以得到KeyYOLO模型,采用不对称损失函数对所述KeyYOLO模型进行训练;
将所述关键点定位图像库输入至所述KeyYOLO模型中,通过所述KeyYOLO模型分别输出每个所述极坐标系的原点位置到所述4个关键点的预测距离;
根据所述标注框的边长确定三个极坐标系的原点位置,分别以每个所述极坐标系的原点位置为圆心,以所述预测距离为半径画圆得到分别与三个极坐标系对应的三个圆;
根据三个圆的交点判断所述待定位文本行的每个所述关键点的位置。
2.如权利要求1所述的文本行关键点定位方法,其特征在于,所述根据三个圆的交点判断所述待定位文本行的每个所述关键点的位置,具体为:
若三个圆存在唯一交点,则将所述交点的位置判断为所述关键点的位置;
若三个圆两两相交且不存在唯一交点,则计算所有交点的重心,并将所述重心作为关键点的位置;
若三个圆不存在交点,则判断所述文本行不存在关键点。
3.如权利要求1所述的文本行关键点定位方法,其特征在于,所述采用不对称损失函数训练KeyYOLO模型,具体为:
当检测到所述预测距离小于真实值时,增大所述不对称损失函数的值;
当检测到所述预测距离大于真实值时,减少所述不对称损失函数的值。
4.如权利要求1所述的文本行关键点定位方法,其特征在于,所述不对称损失函数包括置信损失、定位损失和分类损失。
5.如权利要求1所述的文本行关键点定位方法,其特征在于,在将所述关键点定位图像库输入至所述KeyYOLO模型之前,还包括:
采用数据增强处理方法对所述关键点定位图像库进行预处理。
6.如权利要求1所述的文本行关键点定位方...
【专利技术属性】
技术研发人员:杨晓帆,毛亮,陈映庭,陈鹏飞,
申请(专利权)人:广州逅艺文化科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。