一种单词的分割方法和装置制造方法及图纸

技术编号:16153852 阅读:18 留言:0更新日期:2017-09-06 18:48
本申请提供一种单词的分割方法和装置,该方法包括:获取样本图像,所述样本图像包括单词间隔标记或者非单词间隔标记;利用卷积神经网络对所述样本图像进行处理,得到所述样本图像对应的第一特征向量、所述第一特征向量对应的单词间隔概率值和/或非单词间隔概率值;获取待测试图像,并利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量、所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值;利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割。通过本申请的技术方案,精准的进行单词分割,使得单词分割的准确率得到提高,提高单词分割的速度,提高用户使用体验。

【技术实现步骤摘要】
一种单词的分割方法和装置
本申请涉及互联网
,尤其涉及一种单词的分割方法和装置。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指使用电子设备检查纸上打印的字符,并通过检测暗、亮的模式确定其形状,然后使用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将该图像中的文字转换成文本格式,以供文字处理软件进一步进行编辑加工的技术。因此,基于OCR技术,可以将文本图像转换成数字形式。尽管OCR技术已经较为成熟,但由于图像背景复杂,图像中的文字字体、大小及颜色等变化繁多,再加上拍摄视角的变化,以及不同光照的影响等诸多因素,使得快速、准确地检测出图像中的文字区域的难度较大。
技术实现思路
本申请提供一种单词的分割方法和装置,以对图像进行单词分割,并快速、准确地检测出图像中的文字区域,提高用户使用体验。技术方案如下:本申请提供一种单词的分割方法,所述方法包括以下步骤:获取样本图像,所述样本图像包括单词间隔标记或者非单词间隔标记;利用卷积神经网络对所述样本图像进行处理,得到所述样本图像对应的第一特征向量、所述第一特征向量对应的单词间隔概率值和/或非单词间隔概率值;获取待测试图像,并利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量、所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值;利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割。所述获取样本图像,包括:从字体库中抽取至少两个字母图像,并对所述至少两个字母图像进行拼接,得到拼接图像,并为所述拼接图像设定单词间隔标记或者非单词间隔标记;将所述拼接图像标记为所述样本图像;或者,对所述拼接图像进行以下操作之一或者任意组合:平移操作、旋转操作、拉伸操作、添加高斯噪声,并将进行所述操作之后的图像标记为所述样本图像。所述方法进一步包括:在利用卷积神经网络对所述样本图像进行处理之前,将所述样本图像转换成灰度的样本图像,并将所述灰度的样本图像转换成大小为M*N的样本图像,并对所述大小为M*N的样本图像进行归一化处理;在利用所述卷积神经网络对所述待测试图像进行处理之前,将所述待测试图像转换成灰度的待测试图像,并将所述灰度的待测试图像转换成大小为M*L的待测试图像,并对所述大小为M*L的待测试图像进行归一化处理;其中,所述M为正整数、所述N为正整数、所述L为正整数,且所述M和所述L的比值,与所述待测试图像的长宽比相同。利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量,包括:将所述待测试图像向左平移K次或者向右平移K次,每次平移时的平移位置不同,以得到K+1个不同的待测试图像,所述K为正整数;利用卷积神经网络对K+1个不同的待测试图像进行处理,得到K+1个不同的待测试图像分别对应的特征向量,并将所述K+1个不同的待测试图像分别对应的特征向量组合在一起,得到所述待测试图像对应的第二特征向量。所述得到所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值的过程,具体包括:利用所述卷积神经网络获得所述第二特征向量匹配的多个第一特征向量,并将所述多个第一特征向量对应的单词间隔概率值或者非单词间隔概率值,作为所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值。利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割,包括:将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到单词间隔概率值的极大值位置,并利用所述极大值位置对所述待测试图像进行单词分割;或者,将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的非单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到非单词间隔概率值的极小值位置,并利用所述极小值位置对所述待测试图像进行单词分割。本申请提供一种单词的分割装置,所述装置具体包括:训练模块,用于获取样本图像,所述样本图像包括单词间隔标记或者非单词间隔标记;利用卷积神经网络对所述样本图像进行处理,得到所述样本图像对应的第一特征向量、所述第一特征向量对应的单词间隔概率值和/或非单词间隔概率值;预测模块,用于获取待测试图像,并利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量、所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值;利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割。所述训练模块,具体用于在获取所述样本图像的过程中,从字体库中抽取至少两个字母图像,并对所述至少两个字母图像进行拼接,得到拼接图像,并为所述拼接图像设定单词间隔标记或者非单词间隔标记;将所述拼接图像标记为所述样本图像;或者,对所述拼接图像进行以下操作之一或者任意组合:平移操作、旋转操作、拉伸操作、添加高斯噪声,并将进行所述操作之后的图像标记为所述样本图像。所述训练模块,还用于在利用卷积神经网络对样本图像进行处理之前,将所述样本图像转换成灰度的样本图像,并将所述灰度的样本图像转换成大小为M*N的样本图像,并对所述大小为M*N的样本图像进行归一化处理;所述预测模块,还用于在利用卷积神经网络对待测试图像进行处理之前,将待测试图像转换成灰度的待测试图像,并将灰度的待测试图像转换成大小为M*L的待测试图像,并对所述大小为M*L的待测试图像进行归一化处理;其中,所述M为正整数、所述N为正整数、所述L为正整数,且所述M和所述L的比值,与所述待测试图像的长宽比相同。所述预测模块,具体用于在利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量的过程中,将所述待测试图像向左平移K次或者向右平移K次,每次平移时的平移位置不同,以得到K+1个不同的待测试图像,所述K为正整数;利用卷积神经网络对K+1个不同的待测试图像进行处理,得到K+1个不同的待测试图像分别对应的特征向量,并将所述K+1个不同的待测试图像分别对应的特征向量组合在一起,得到所述待测试图像对应的第二特征向量。所述预测模块,具体用于在得到所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值的过程中,利用所述卷积神经网络获得所述第二特征向量匹配的多个第一特征向量,并将所述多个第一特征向量对应的单词间隔概率值或者非单词间隔概率值,作为所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值。所述预测模块,具体用于在利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割的过程中,将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到单词间隔概率值的极大值位置,并利用所述极大值位置对所述待测试图像进行单词分割;或者,将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的非单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到非单词间本文档来自技高网...
一种单词的分割方法和装置

【技术保护点】
一种单词的分割方法,其特征在于,所述方法包括以下步骤:获取样本图像,所述样本图像包括单词间隔标记或者非单词间隔标记;利用卷积神经网络对所述样本图像进行处理,得到所述样本图像对应的第一特征向量、所述第一特征向量对应的单词间隔概率值和/或非单词间隔概率值;获取待测试图像,并利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量、所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值;利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割。

【技术特征摘要】
1.一种单词的分割方法,其特征在于,所述方法包括以下步骤:获取样本图像,所述样本图像包括单词间隔标记或者非单词间隔标记;利用卷积神经网络对所述样本图像进行处理,得到所述样本图像对应的第一特征向量、所述第一特征向量对应的单词间隔概率值和/或非单词间隔概率值;获取待测试图像,并利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量、所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值;利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割。2.根据权利要求1所述的方法,其特征在于,所述获取样本图像,包括:从字体库中抽取至少两个字母图像,并对所述至少两个字母图像进行拼接,得到拼接图像,并为所述拼接图像设定单词间隔标记或者非单词间隔标记;将所述拼接图像标记为所述样本图像;或者,对所述拼接图像进行以下操作之一或者任意组合:平移操作、旋转操作、拉伸操作、添加高斯噪声,并将进行所述操作之后的图像标记为所述样本图像。3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:在利用卷积神经网络对所述样本图像进行处理之前,将所述样本图像转换成灰度的样本图像,并将所述灰度的样本图像转换成大小为M*N的样本图像,并对所述大小为M*N的样本图像进行归一化处理;在利用所述卷积神经网络对所述待测试图像进行处理之前,将所述待测试图像转换成灰度的待测试图像,并将所述灰度的待测试图像转换成大小为M*L的待测试图像,并对所述大小为M*L的待测试图像进行归一化处理;其中,所述M为正整数、所述N为正整数、所述L为正整数,且所述M和所述L的比值,与所述待测试图像的长宽比相同。4.根据权利要求1所述的方法,其特征在于,利用所述卷积神经网络对所述待测试图像进行处理,得到所述待测试图像对应的第二特征向量,包括:将所述待测试图像向左平移K次或者向右平移K次,每次平移时的平移位置不同,以得到K+1个不同的待测试图像,所述K为正整数;利用卷积神经网络对K+1个不同的待测试图像进行处理,得到K+1个不同的待测试图像分别对应的特征向量,并将所述K+1个不同的待测试图像分别对应的特征向量组合在一起,得到所述待测试图像对应的第二特征向量。5.根据权利要求1或4所述的方法,其特征在于,所述得到所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值的过程,具体包括:利用所述卷积神经网络获得所述第二特征向量匹配的多个第一特征向量,并将所述多个第一特征向量对应的单词间隔概率值或者非单词间隔概率值,作为所述第二特征向量对应的单词间隔概率值或者非单词间隔概率值。6.根据权利要求1或4所述的方法,其特征在于,利用当前得到的单词间隔概率值或者非单词间隔概率值,对所述待测试图像进行单词分割,包括:将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到单词间隔概率值的极大值位置,并利用所述极大值位置对所述待测试图像进行单词分割;或者,将所述第二特征向量对应的待测试图像位置作为横坐标,将所述第二特征向量对应的非单词间隔概率值作为纵坐标,得到概率值结果图;从所述概率值结果图中找到非单词间隔概率值的极小值位置,并利用所述极小值位置对所述待测试图像进行单词分割。7.一种单词的分割装置,其特征在于,所述装置具体包括:训练模块...

【专利技术属性】
技术研发人员:周文猛程孟力毛旭东施兴褚崴
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1