图片处理方法、任务数据处理方法和装置制造方法及图纸

技术编号:20329575 阅读:23 留言:0更新日期:2019-02-13 06:01
本发明专利技术涉及一种图片处理方法、任务数据处理方法和装置,所述方法包括:通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现,至少部分所述处理单元包括FPGA单元;获取待处理图片;提取所述待处理图片中的文本特征;根据所述文本特征确定所述待处理图片中任意角度的候选文本框;对各所述候选文本框进行旋转感兴趣区域的池化处理,并将各所述候选文本框投影到固定大小的特征图,得到各所述候选文本框对应的文本框特征图;识别所述文本框特征图中文本,得到文本识别结果。本申请通过FPGA架构,可并行处理数据以实现上述图片处理方法,能够在降低成本和功耗的同时,提高待处理图片中文本识别准确率和效率。

【技术实现步骤摘要】
图片处理方法、任务数据处理方法和装置
本专利技术涉及数据处理领域,特别是涉及一种图片处理方法、任务数据处理方法和装置。
技术介绍
随着计算技术的飞速发展,越来越多的数据都需要计算机来处理。尤其随着数据量的迅猛增长,导致对数据处理效率的要求越来越高。例如在场景文本识别领域,文本检测是场景文本识别的前提条件,要解决的问题是如何在杂乱无序、千奇百怪的复杂场景图片中准确地定位出文字的位置并识别出文字。由于背景的复杂性、光照的多变性以及字体的不可预测性等原因,文本检测面临着极大的挑战。例如,在硬件方面,通常是通过CPU或GPU处理图片数据并进行文本检测等。CPU采用串行处理,即在处理过程中需要等待对前一任务数据处理完毕,得到前一任务数据对应的执行结果后,才能继续执行下一个任务数据,这样相较于大量的任务数据量,任务数据处理的效率较低。而通过GPU处理的成本较高,且具有超大的功耗。又例如,在软件方面,现有技术没有针对OCR(OpticalCharacterRecognition,光学字符识别)完整的主流算法进行FPGA加速设计,大多数只是集中在CNN(卷积神经网络)提取图像特征部分,而且只支持固定图像大小,并不能适应实际的应用场景。
技术实现思路
基于此,有必要针对传统方法存在的问题,提供一种图片处理方法、任务数据处理方法和装置。一种图片处理方法,通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现,至少部分所述处理单元包括FPGA单元;所述方法包括:获取待处理图片;提取所述待处理图片中的文本特征;根据所述文本特征确定所述待处理图片中任意角度的候选文本框;对各所述候选文本框进行旋转感兴趣区域的池化处理,并将各所述候选文本框投影到固定大小的特征图,得到各所述候选文本框对应的文本框特征图;识别所述文本框特征图中文本,得到文本识别结果。上述图片处理方法,根据待处理图片的文本特征,确定待处理图片中各任意角度的候选文本框,可以识别不同角度的候选文本框。对各候选文本框进行池化处理,并将不同大小的各候选文本框投影到固定大小的特征图,得到各候选文本框的文本框特征图,提高了处理候选文本框的适应性,可以处理不同尺寸和不同角度的候选文本框,通过识别文本框特征图中文本,得到各候选文本框的文本识别结果。同时,通过FPGA架构,可并行处理数据以实现上述图片处理方法,能够在降低成本和功耗的同时,提高待处理图片中文本识别准确率和效率。一种任务数据处理方法,所述方法包括:获取多个任务数据;对于每个所述任务数据,分别按照机器学习模型中子结构的顺序,依次通过各所述子结构所对应的处理单元执行相应子结构的子任务;至少部分所述处理单元包括FPGA单元;在每个所述处理单元的处理过程中,当处理单元处于空闲状态时,并行执行下一个任务数据对应的子任务。一种任务数据处理方法,应用于分布式服务器主机,所述方法包括:接收终端发送的任务数据;确定为所述任务数据分配的分布式服务器从机地址;根据所述分配的分布式服务器从机地址将所述任务数据发送至分布式服务器从机;所述分布式服务器从机将所述任务数据放入线程池,从所述线程池获取多个任务数据;对于每个所述任务数据,分别按照机器学习模型中子结构的顺序,依次通过各所述子结构所对应的处理单元执行相应子结构的子任务;至少部分所述处理单元包括FPGA单元;在每个所述处理单元的处理过程中,当处理单元处于空闲状态时,并行执行下一个任务数据对应的子任务。一种任务数据处理装置,所述装置包括:任务调度单元和FPGA单元,所述任务调度单元与所述FPGA单元相连接;所述任务调度单元,用于获取多个任务数据;对于每个所述任务数据,分别按照机器学习模型中子结构的顺序,依次通过各所述子结构所对应的处理单元执行相应子结构的子任务;至少部分所述处理单元包括FPGA单元;在每个所述处理单元的处理过程中,当处理单元处于空闲状态时,并行执行下一个任务数据对应的子任务。上述任务数据处理方法和装置,通过部分FPGA单元执行机器学习模型中子结构对应的子任务,且在获取多个任务数据时,各FPGA单元并行执行各任务数据对应的子任务,从而使得各任务数据对应的子任务可以被并行处理,从而提高了多个任务数据的处理效率。附图说明图1为一个实施例中任务数据处理方法的应用场景图;图2为一个实施例中计算机设备的内部结构示意图;图3为一个实施例中任务数据处理装置的框图;图4为一个实施例中任务数据处理装置的内部结构示意图;图5为一个实施例中任务数据处理方法的流程示意图;图6为一个实施例中任务数据的封装示意图;图7为一个实施例中多线程任务并行执行的示意图;图8为一个实施例中多线程任务并行执行的时序图;图9为一个实施例中多线程任务并行执行的时序图;图10为一个实施例中CPU和FPGA单元并行处理任务的示意图;图11为另一个实施例中任务数据处理方法的应用环境图;图12为一个实施例中分布式服务器从机的内部环境图;图13一个实施例中任务数据处理方法的软件架构图;图14为一个实施例中各子结构处理图像处理任务数据的步骤的流程示意图;图15为一实施例中获得分类结果的步骤的流程示意图;图16为一个实施例中获得图像处理结果的流程示意图;图17为一个实施例中图片处理方法的流程示意图;图18为一个实施例中文本识别的流程示意图;图19a-19e为多个应用场景对应的文本识别结果示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中任务数据处理方法的应用场景图。参照图1,该应用场景中包括CPU(中央处理器,CentralProcessingUnit/Processor)110、板卡接口120和任务数据处理装置130。CPU110通过板卡接口120与任务数据处理装置130进行通信。板卡接口120和CPU110集成在计算机设备的主板上,板卡接口120可以是主板上的板卡插槽,任务数据处理装置130插入板卡插槽即可与CPU进行通信。任务数据板卡中集成有至少一个FPGA(现场可编程门阵列,Field-ProgrammableGateArray)单元。图2为集成有图1中的CPU110和板卡接口120的计算机设备的内部结构示意图。参照图2,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和板卡接口120,板卡接口120连接任务数据处理装置130。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行上述任务数据处理方法。该任务数据处理装置130和计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备和任务数据处理装置130的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行所述任务数据处理方法。计算机设备的网络接口用于进行网络通信。计算机设备可以是分布式服务器从机。本领域技术人员可以理解,图2示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图2中所示更多或更少的部件,或本文档来自技高网...

【技术保护点】
1.一种图片处理方法,通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现,至少部分所述处理单元包括FPGA单元;所述方法包括:获取待处理图片;提取所述待处理图片中的文本特征;根据所述文本特征确定所述待处理图片中任意角度的候选文本框;对各所述候选文本框进行旋转感兴趣区域的池化处理,并将各所述候选文本框投影到固定大小的特征图,得到各所述候选文本框对应的文本框特征图;识别所述文本框特征图中文本,得到文本识别结果。

【技术特征摘要】
1.一种图片处理方法,通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现,至少部分所述处理单元包括FPGA单元;所述方法包括:获取待处理图片;提取所述待处理图片中的文本特征;根据所述文本特征确定所述待处理图片中任意角度的候选文本框;对各所述候选文本框进行旋转感兴趣区域的池化处理,并将各所述候选文本框投影到固定大小的特征图,得到各所述候选文本框对应的文本框特征图;识别所述文本框特征图中文本,得到文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括卷积层;所述提取所述待处理图片中的文本特征包括:将所述待处理图片输入卷积层;根据所述卷积层的卷积核对所述待处理图片进行卷积处理,得到所述待处理图片的文本特征。3.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括与所述卷积层连接的候选区域生成网络;所述根据所述文本特征确定所述待处理图片中任意角度的候选文本框包括:将所述文本特征输入到候选区域生成网络;通过所述候选区域生成网络中的候选区域卷积层,对所述文本特征进行卷积处理,得到文本特征卷积结果;根据文本特征卷积结果,确定所述待处理图片中各候选文本框的位置信息;对各候选文本框的位置信息进行非极大值抑制处理,得到各任意角度的候选文本框。4.根据权利要求3所述的方法,其特征在于,所述对各候选文本框的位置信息进行非极大值抑制处理,得到各任意角度的候选文本框包括:根据候选文本框的位置信息,确定所述待处理图片中各任意角度的候选文本框;确定重叠的候选文本框;对重叠的候选文本框进行非极大值抑制处理,以得到不重叠的各任意角度的候选文本框。5.根据权利要求3所述的方法,其特征在于,所述机器学习模型包括与所述候选区域生成网络依次连接的池化层;所述对各所述候选文本框进行旋转感兴趣区域的池化处理,并将各所述候选文本框投影到固定大小的特征图,得到各所述候选文本框对应的文本框特征图包括:将各所述候选文本框输入所述池化层;根据预设特征图的固定大小确定各所述候选文本框的投影参数;根据所述投影参数将各所述候选文本框投影为固定大小的特征图,得到各所述候选文本框对应的文本框特征图。6.根据权利要求5所述的方法,其特征在于,所述机器学习模型包括与池化层连接的全连接层;所述识别所述文本框特征图中文本,得到文本识别结果包括:将所述文本框特征图输入所述全连接层;通过所述文本特征图确定各文本分类对应的概率值;选取最大概率值对应的文本分类作为所述文本特征图的文本识别结果。7.根据权利要求1所述的方法,所述方法包括:所述处理单元包括FPGA单元和CPU;所述待处理图片为多个待处理图片;将当前的待处理图片输入卷积层对应的FPGA单元进行处理,得到待处理图片的文本特征;将所述文本特征输入候选区域生成网络对应的CPU进行处理,确定任意角度的候选文本框;通过池化层对应的FPGA单元,根据所述任意角度的候选文本框,确定各候选文本框对应的文本框特征图;根据识别结果层对应的FPGA单元,对所述文本框特征图中文本进行识别,得到文本识别结果;其中,在每个所述处理单元的处理过程中,当处理单元处于空闲状态时,并行执行下一个待处理图片对应的子任务。8.一种任务数据处理方法,所述方法包括:获取多个任务数据;对于每个所述任务数据,分别按照机器学习模型中子结构的顺序,依次通过各所述子结构所对应的处理单元执行相应子结构的子任务;至少部分所述处理单元包括FPGA单元;在每个所述处理单元的处理过程中,当处理单元处于空闲状态时,并行执行下一个任务数据对应的子任务。9.根据权利要求8所述的方法,其特征在于,所述对于每个所述任务数据,分别按照机器学习模型中子结构的顺序,依次通过各所述子结构所对应的处理单元执行相...

【专利技术属性】
技术研发人员:辛遥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1