一种文本定位方法及装置制造方法及图纸

技术编号：21090904 阅读：39 留言：0更新日期：2019-05-11 10:27

本发明专利技术提出一种文本定位方法及装置，该方法包括：提取得到输入图像的特征向量；根据所述特征向量，从所述图像中选择出至少一个文本预选区域；利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。上述方法为自动化的文本定位处理过程，全程不需要人工参与，实现了文本定位的自动化。

A Text Location Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本定位方法及装置
本专利技术涉及图像处理
，尤其涉及一种文本定位方法及装置。
技术介绍
数字图像中一般会包含文本内容，在很多应用场合中，需要从数字图像中定位出文本内容，例如在图像文本识别场景中，需要首先从图像中定位出文本，然后对定位的文本进行内容识别。最准确的文本定位就是由人工来主动框选图像中的文本区域。而人工主动框选文本区域，需要用户与设备交互多次，才能将图像中的文本区域标注明确，这些交互过程主要集中在调整标记框位置、大小等。显然利用人工框选文本区域，其实现过程复杂，需要用户操作较多，用户体验不佳。并且，随着移动设备的普及，用户更希望能够在移动设备上实现自动化的图像文本定位。
技术实现思路
基于上述现有技术现状，本专利技术提出一种文本定位方法及装置，能够实现自动化的图像文本定位，并且可以应用到移动设备。一种文本定位方法，包括：提取得到输入图像的特征向量；根据所述特征向量，从所述图像中选择出至少一个文本预选区域；利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。优选...

【技术保护点】
1.一种文本定位方法，其特征在于，包括：提取得到输入图像的特征向量；根据所述特征向量，从所述图像中选择出至少一个文本预选区域；利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。

【技术特征摘要】
1.一种文本定位方法，其特征在于，包括：提取得到输入图像的特征向量；根据所述特征向量，从所述图像中选择出至少一个文本预选区域；利用经过训练的卷积神经网络调整所述至少一个文本预选区域，得到至少一个文本区域；将所述至少一个文本区域进行合并，确认所述图像中的文本区域的位置。2.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量，从所述图像中选择出至少一个文本预选区域，包括：将所述特征向量输入区域推荐网络，使所述区域推荐网络根据所述特征向量从所述图像中选择出至少一个文本预选区域。3.根据权利要求1所述的方法，其特征在于，对所述卷积神经网络的训练，包括：循环执行以下操作，直到计算得到的运算误差小于设定阈值：将包含至少一个文本预选区域，以及与所述至少一个文本预选区域对应的已标注的至少一个文本区域的图像输入卷积神经网络，使所述卷积神经网络按照预设运算参数，调整所述图像中的至少一个文本预选区域，得到至少一个文本区域；将所述卷积神经网络调整得到的至少一个文本区域与所述已标注的至少一个文本区域进行对比，得到所述卷积神经网络的运算误差；判断所述运算误差是否小于设定阈值；如果所述运算误差不小于设定阈值，则根据所述运算误差，调整所述卷积神经网络的运算参数。4.根据权利要求1所述的方法，其特征在于，所述将所述至少一个文本区域进行合并，包括：将所述至少一个文本区域按照行方向进行合并。5.根据权利要求1所述的方法，其特征在于，所述提取得到输入图像的特征向量，包括：将图像输入VGG16卷积神经网络，利用所述VGG16卷积神经网络提取得到所述图像的特征向量。6.一种文本定位装置，其特征在于，包括：特征提取单元，用于提取得到输入图像的特征向量；区域选择单元，...

【专利技术属性】
技术研发人员：韩冰天，丛国华，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人