两阶段安全多方计算的图片文本定位识别方法技术

技术编号:29331711 阅读:71 留言:0更新日期:2021-07-20 17:49
一种两阶段安全多方计算的隐私保护图片文本定位识别方法,对图片的文字定位与识别方案均不涉及明文传输,图片信息及用户端与客户端之间的传输内容都是通过安全多方计算加密的,达到了图片隐私保护的要求,服务可靠,安全性高。本发明专利技术将加密文字定位和识别网络服务分离,提出了适用于安全多方计算框架的基于分割的单字定位和全卷积单字识别网络,可以分别提供加密单字定位与单字识别服务。

【技术实现步骤摘要】
两阶段安全多方计算的图片文本定位识别方法
本专利技术涉及的是一种图像处理领域的技术,具体是一种基于两阶段安全多方计算的隐私保护图片文本定位识别方法,特别涉及在不泄露真实图片信息的情况下,利用安全多方计算技术实现图片的单字定位与识别的方法。
技术介绍
目前提供图像文字定位识别算法的云服务大多需要真实的图像信息,用户在接受此类服务时,往往需要将真实图像提供给服务器端,无法满足隐私保护需求。以安全多方计算为代表的隐私计算技术在保护数据本身不对外泄露的基础上实现多方参与的计算任务,解决数据流通中的可用性与隐私性之间的矛盾,重视数据的所有权和安全处理,进而在保护图片隐私性的情况下实现图片信息的可用性。安全多方计算协议允许多个参与者通过使用同态加密、秘密共享和不经意传输等加密技术,在不实际共享输入的基础上对数据进行聚合计算。安全多方计算的研究主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种两阶段安全多方计算的隐私保护图片文本定位识别方法,基于安全多方计算方案实现加密的图片单字定位及识别。不同于普通的文字识别工作,充分保护了用户的隐私安全。本专利技术基于安全多方计算方案的技术手段。本专利技术是通过以下技术方案实现的:本专利技术涉及一种两阶段安全多方计算的隐私保护图片文本定位识别方法,包括:1)用户基于安全多方计算中的函数秘密分享协议,通过其中的秘密函数加密图片中的每个像素的信息,将加密后的图片信息传输到云端服务器;2)云端服务器基于训练好的单字文字定位模型对图片信息进行特征提取,得到三个层次的加密的图片单字定位特征图,并将加密的图片单字定位特征图传输回用户端;3)用户在本地利用秘密函数对加密的图片单字定位特征图解密,再利用渐进拓展算法从解密特征图中得到单字文本的像素点位置,计算单字区域最小包围矩形得到单字文本框坐标;4)用户通过对单字文本框坐标的空间距离筛选出同一文本行中顺序排列的单字,然后将顺序排列的单字利用秘密函数按顺序通过秘密函数加密后分别传输到云端服务器;5)云端服务器基于训练好的单字识别模型对加密后的单字图片进行单字识别,得到单字识别结果并传输回用户端;6)用户在本地利用秘密函数对单字识别结果解密,并按顺序排列解密结果即得到文字识别结果。所述的秘密函数f,根据提供服务器的数量将此秘密函数分割成用户加服务器数量的秘密份额f1-fn,该秘密份额函数作为密钥的一部分,仅当获得全部秘密份额时才能还原原文的输入,利用全部秘密份额能够在不暴露明文的情况下对明文进行计算,从而实现加密的卷积、池化、激活函数操作。步骤1中所述的加密是指:利用秘密份额f1对图片P的逐像素进行加密,同时服务器拥有秘密份额f2能够对加密后的Ek(P)进行计算。在服务器和用户进行通信计算,特征图提取可以看作是一系列连续的函数,因此特征提取网络的计算可以通过秘密函数的计算替代,随后服务器计算得到加密的特征图Ek(Fchar)传输回用户端;对应的解密是指:用户端拥有全部的秘密份额能够解密复原Fchar,在本地恢复单字定位特征图。步骤4中所述的通过秘密函数加密是指:用户端利用秘密份额f1对排序好的单字图片Pic进行加密得Ek(Pic),服务器根据加密后得图片进行文字识别网络的计算得到文字识别结果Ek(Char),用户根据传输单字图片顺序解密得到文字识别结果。所述的特征提取,具体步骤包括:①输入图片的尺寸为(N,C,H,W),其中N代表训练用的batchsize,一般为1,C代表图片通道数,一般为3,H,W是图片的高和宽。在获得输入图片之后,特征网络的四个卷积层由低到高提取出图片四个特征C2,C3,C4,C5,尺寸大小分别对应原始图片下采样的4,8,16,32倍,其中底层特征C2尺寸大而感受野小,更关注图片的底层细节信息,C5是图像最高层的特征感受野最大且具有高层的语义信息。特征融合时网络采取简单的相加操作而不采用一般特征融合使用的concat以减少网络计算量。获得各种特征输出后利用两倍上采样使特征图尺寸一致后使用加操作依次进行融合特征操作,P5特征层通过C5卷积改变通道数得到。C4和P5融合得到P4,即P4=Up(P5)+C4。随后F4和C3融合得到P3,即P3=Up(P4)+C3,P3和C2融合得到P2,即F2=Up(P3)+C2。最后将这三层融合后的特征再次上采样融合得到输出的单字外轮廓、内轮廓与单字中心三个层次的特征Fchar1,Fchar2和Fchar3。即(Fchar1,Fchar2,Fchar3)=(P2+Up(P3)+Up(Up(P4))+Up(Up(Up(P5))))。输出特征图尺寸为(3,H/4,W/4)。特征图矩阵每个位置的值代表此像素为单字的概率。②得到图片特征图后首先采取线性双插值的上采样算法将特征图尺寸扩大四倍到图片原尺寸。此时有三张特征图每张特征图尺寸与原图相同。第一张外轮廓特征图代表单字最小外接矩形的对应区域,第二张内轮廓特征图代表单字最小外接矩形缩小0.7倍的对应区域,第三张单字中心特征图代表单字最小外接矩形缩小0.5倍的对应区域,用来确定文字中心。将这些特征图中每一个值通过sigmoid函数映射到0-1,映射后的值代表此像素点代表相应特征的概率。选取阈值threshold=0.9,概率超过阈值的像素点被认为是相应的特征,取值为1,低于阈值的像素点取值为0,至此可以得到三张与原图尺寸相同的0-1二值图,分别对应相应单字外轮廓、内轮廓与单字中心的像素点。将确定的单字中心的连通区域利用宽度优先搜索BFS拓展到内轮廓的边界,随后将得到的内轮廓边界搜索并拓展到外轮廓边界。此时外轮廓中所有的像素点即代表文字的区域,此连通区域的最小外接矩形即为单字的定位框,此算法由于通过一层特征确定文字中心可以有效地分割相邻的单字找到每个单字的定位框。所述的单字识别,具体为:利用得到单字定位框坐标信息判断是否为同一文本行的单字。将各个单字框的矩形利用缩放函数放大为原来的1.25倍并判断是否与其他单字框相交,扩大单字框后有交集的单字可以视为同一文本框内文本并且按照横坐标进行排序。用户端利用这些文字的坐标在原图片上裁剪对应区域图片加密后按顺序传输给云端服务器进行单字识别。单字图片被resize成一定大小的Pic后通过若干交替的卷积层与池化层后,利用view函数拉成一维向量后通过全连接层fc并利用Softmax函数输出对应种类文字概率,最后使用argmax函数得到概率最高的单字种类,即:Char=(MaxPool(Conv(Pic)))n。其中卷积计算-激活函数-最大池化这一操作重复若干次,全连接层fc的输出维度为预测的单字种类,一般为常用的三千个汉字加上大小写英文字母和阿拉伯数字。本专利技术涉及一种实现上述方法的系统,包括:单字特征提取网络单元、渐进拓展后处理单元和单字识别网络单元,其中:单字特征提取网络单元与渐进拓展后处理单元相连并向后者传输单字特征图信息,渐进拓展后处理单元与单字识别网络单元相连本文档来自技高网...

【技术保护点】
1.一种两阶段安全多方计算的隐私保护图片文本定位识别方法,其特征在于,包括:/n1)用户基于安全多方计算中的函数秘密分享协议,通过其中的秘密函数加密图片中的每个像素的信息,将加密后的图片信息传输到云端服务器;/n2)云端服务器基于训练好的单字文字定位模型对图片信息进行特征提取,得到三个层次的加密的图片单字定位特征图,并将加密的图片单字定位特征图传输回用户端;/n3)用户在本地利用秘密函数对加密的图片单字定位特征图解密,再利用渐进拓展算法从解密特征图中得到单字文本的像素点位置,计算单字区域最小包围矩形得到单字文本框坐标;/n4)用户通过对单字文本框坐标的空间距离筛选出同一文本行中顺序排列的单字,然后将顺序排列的单字利用秘密函数按顺序通过秘密函数加密后分别传输到云端服务器;/n5)云端服务器基于训练好的单字识别模型对加密后的单字图片进行单字识别,得到单字识别结果并传输回用户端;/n6)用户在本地利用秘密函数对单字识别结果解密,并按顺序排列解密结果即得到文字识别结果;/n所述的秘密函数,根据提供服务器的数量将此秘密函数分割成用户加服务器数量的秘密份额f

【技术特征摘要】
1.一种两阶段安全多方计算的隐私保护图片文本定位识别方法,其特征在于,包括:
1)用户基于安全多方计算中的函数秘密分享协议,通过其中的秘密函数加密图片中的每个像素的信息,将加密后的图片信息传输到云端服务器;
2)云端服务器基于训练好的单字文字定位模型对图片信息进行特征提取,得到三个层次的加密的图片单字定位特征图,并将加密的图片单字定位特征图传输回用户端;
3)用户在本地利用秘密函数对加密的图片单字定位特征图解密,再利用渐进拓展算法从解密特征图中得到单字文本的像素点位置,计算单字区域最小包围矩形得到单字文本框坐标;
4)用户通过对单字文本框坐标的空间距离筛选出同一文本行中顺序排列的单字,然后将顺序排列的单字利用秘密函数按顺序通过秘密函数加密后分别传输到云端服务器;
5)云端服务器基于训练好的单字识别模型对加密后的单字图片进行单字识别,得到单字识别结果并传输回用户端;
6)用户在本地利用秘密函数对单字识别结果解密,并按顺序排列解密结果即得到文字识别结果;
所述的秘密函数,根据提供服务器的数量将此秘密函数分割成用户加服务器数量的秘密份额f1-fn,该秘密份额函数作为密钥的一部分,仅当获得全部秘密份额时才能还原原文的输入,利用全部秘密份额能够在不暴露明文的情况下对明文进行计算。


2.根据权利要求1所述的两阶段安全多方计算的隐私保护图片文本定位识别方法,其特征是,步骤1中所述的加密是指:利用秘密份额f1对图片P的逐像素进行加密,同时服务器拥有秘密份额f2能够对加密后的Ek(P)进行计算,在服务器和用户进行通信计算,特征图提取可以看作是一系列连续的函数,因此特征提取网络的计算可以通过秘密函数的计算替代,随后服务器计算得到加密的特征图Ek(Fchar)传输回用户端;对应的解密是指:用户端拥有全部的秘密份额能够解密复原Fchar,在本地恢复单字定位特征图。


3.根据权利要求1所述的两阶段安全多方计算的隐私保护图片文本定位识别方法,其特征是,步骤4中所述的通过秘密函数加密是指:用户端利用秘密份额f1对排序好的单字图片Pic进行加密得Ek(Pic),服务器根据加密后得图片进行文字识别网络的计算得到文字识别结果Ek(Char),用户根据传输单字图片顺序解密得到文字识别结果。


4.根据权利要求1所述的两阶段安全多方计算的隐私保护图片文本定位识别方法,其特征是,所述的特征提取,具体步骤包括:
①输入图片的尺寸为(N,C,H,W),其中N为训练用的batchsize,C为图片通道数,一般为3,H,W是图片的高和宽;在获得输入图片之后,特征网络的四个卷积层由低到高提取出图片四个特征C2,C3,C4,C5,尺寸大小分别对应原始图片下采样的4,8,16,32倍,获得各种特征输出后利用两倍上采样使特征图尺寸一致后使用加操作依次进行融合特征操作,P5特征层通过C5卷积改变通道数得到;C4和P5融合得到P4,即P4=Up(P5)+C4;F4和C3融合得到P3,即P3=Up(P4)+C3,P3和C2融合得到P2,即F2=Up(P3)+C2;最后将这三层融合后的特征再次上采样融合得到输出的单字外轮廓、内轮廓与单字中心三个层次的特征Fchar1,Fchar2和Fchar3,即加密的图片单字定位特征图(Fchar1,Fchar2,Fchar3)=(P2+Up(P3)+Up(Up(P4))+Up(Up(Up(P5))));输出特征图尺寸为(3,H/4,W/4);特征图矩阵每个位置的值为此像素为单字的概率;
②得到图片特征图后首先采取线性双插值的上采样算法将特征图尺寸扩大四倍到图片原尺寸,第一张外轮廓特征图为单字最小外接矩形的对应区域,第二张内轮廓特征图为单字最小外接矩形缩小0.7倍的对应区域,第三张单字中心特征图为单字最小外接矩形...

【专利技术属性】
技术研发人员:茹超飞黄征郭捷邱卫东
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1