图片处理方法、任务数据处理方法和装置制造方法及图纸

技术编号：20329575 阅读：23 留言：0更新日期：2019-02-13 06:01

本发明专利技术涉及一种图片处理方法、任务数据处理方法和装置，所述方法包括：通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括FPGA单元；获取待处理图片；提取所述待处理图片中的文本特征；根据所述文本特征确定所述待处理图片中任意角度的候选文本框；对各所述候选文本框进行旋转感兴趣区域的池化处理，并将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；识别所述文本框特征图中文本，得到文本识别结果。本申请通过FPGA架构，可并行处理数据以实现上述图片处理方法，能够在降低成本和功耗的同时，提高待处理图片中文本识别准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】
图片处理方法、任务数据处理方法和装置
本专利技术涉及数据处理领域，特别是涉及一种图片处理方法、任务数据处理方法和装置。
技术介绍
随着计算技术的飞速发展，越来越多的数据都需要计算机来处理。尤其随着数据量的迅猛增长，导致对数据处理效率的要求越来越高。例如在场景文本识别领域，文本检测是场景文本识别的前提条件，要解决的问题是如何在杂乱无序、千奇百怪的复杂场景图片中准确地定位出文字的位置并识别出文字。由于背景的复杂性、光照的多变性以及字体的不可预测性等原因，文本检测面临着极大的挑战。例如，在硬件方面，通常是通过CPU或GPU处理图片数据并进行文本检测等。CPU采用串行处理，即在处理过程中需要等待对前一任务数据处理完毕，得到前一任务数据对应的执行结果后，才能继续执行下一个任务数据，这样相较于大量的任务数据量，任务数据处理的效率较低。而通过GPU处理的成本较高，且具有超大的功耗。又例如，在软件方面，现有技术没有针对OCR(OpticalCharacterRecognition,光学字符识别)完整的主流算法进行FPGA加速设计，大多数只是集中在CNN(卷积神经网络)提取图像特征部分，而且只支持固定图像大小，并不能适应实际的应用场景。
技术实现思路
基于此，有必要针对传统方法存在的问题，提供一种图片处理方法、任务数据处理方法和装置。一种图片处理方法，通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括FPGA单元；所述方法包括：获取待处理图片；提取所述待处理图片中的文本特征；根据所述文本特征确定所述待处理图片中任意角度的候选文本框；对各所...

【技术保护点】
1.一种图片处理方法，通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括FPGA单元；所述方法包括：获取待处理图片；提取所述待处理图片中的文本特征；根据所述文本特征确定所述待处理图片中任意角度的候选文本框；对各所述候选文本框进行旋转感兴趣区域的池化处理，并将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；识别所述文本框特征图中文本，得到文本识别结果。

【技术特征摘要】
1.一种图片处理方法，通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括FPGA单元；所述方法包括：获取待处理图片；提取所述待处理图片中的文本特征；根据所述文本特征确定所述待处理图片中任意角度的候选文本框；对各所述候选文本框进行旋转感兴趣区域的池化处理，并将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；识别所述文本框特征图中文本，得到文本识别结果。2.根据权利要求1所述的方法，其特征在于，所述机器学习模型包括卷积层；所述提取所述待处理图片中的文本特征包括：将所述待处理图片输入卷积层；根据所述卷积层的卷积核对所述待处理图片进行卷积处理，得到所述待处理图片的文本特征。3.根据权利要求2所述的方法，其特征在于，所述机器学习模型包括与所述卷积层连接的候选区域生成网络；所述根据所述文本特征确定所述待处理图片中任意角度的候选文本框包括：将所述文本特征输入到候选区域生成网络；通过所述候选区域生成网络中的候选区域卷积层，对所述文本特征进行卷积处理，得到文本特征卷积结果；根据文本特征卷积结果，确定所述待处理图片中各候选文本框的位置信息；对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框。4.根据权利要求3所述的方法，其特征在于，所述对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框包括：根据候选文本框的位置信息，确定所述待处理图片中各任意角度的候选文本框；确定重叠的候选文本框；对重叠的候选文本框进行非极大值抑制处理，以得到不重叠的各任意角度的候选文本框。5.根据权利要求3所述的方法，其特征在于，所述机器学习模型包括与所述候选区域生成网络依次连接的池化层；所述对各所述候选文本框进行旋转感兴趣区域的池化处理，并将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图包括：将各所述候选文本框输入所述池化层；根据预设特征图的固定大小确定各所述候选文本框的投影参数；根据所述投影参数将各所述候选文本框投影为固定大小的特征图，得到各所述候选文本框对应的文本框特征图。6.根据权利要求5所述的方法，其特征在于，所述机器学习模型包括与池化层连接的全连接层；所述识别所述文本框特征图中文本，得到文本识别结果包括：将所述文本框特征图输入所述全连接层；通过所述文本特征图确定各文本分类对应的概率值；选取最大概率值对应的文本分类作为所述文本特征图的文本识别结果。7.根据权利要求1所述的方法，所述方法包括：所述处理单元包括FPGA单元和CPU；所述待处理图片为多个待处理图片；将当前的待处理图片输入卷积层对应的FPGA单元进行处理，得到待处理图片的文本特征；将所述文本特征输入候选区域生成网络对应的CPU进行处理，确定任意角度的候选文本框；通过池化层对应的FPGA单元，根据所述任意角度的候选文本框，确定各候选文本框对应的文本框特征图；根据识别结果层对应的FPGA单元，对所述文本框特征图中文本进行识别，得到文本识别结果；其中，在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个待处理图片对应的子任务。8.一种任务数据处理方法，所述方法包括：获取多个任务数据；对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。9.根据权利要求8所述的方法，其特征在于，所述对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相...

【专利技术属性】
技术研发人员：辛遥，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人