【技术实现步骤摘要】
待混淆文本的处理方法、装置、设备及存储介质
本专利技术涉及图像处理领域,尤其涉及一种待混淆文本的处理方法、装置、设备及存储介质。
技术介绍
随着信息技术的不断发展,信息的安全越来越重要,基于网络的迅速发展,涉及用户安全的信息数据如身份证号、手机号、卡号、业务单号等敏感信息容易在一些网站、系统或应用中被他人窃取,导致一系列风险的产生。由于网站、系统或应用的后台对用户的个人敏感信息未加进行审核与监管,导致个人信息的隐私性与安全性低下。
技术实现思路
本专利技术提供了一种待混淆文本的处理方法、装置、设备及存储介质,用于提高网站、系统或应用中个人信息的隐私性与安全性。本专利技术第一方面提供了一种待混淆文本的处理方法,包括:获取待混淆页面,在所述待混淆页面中利用目标检测模型确定文字区域,并确定所述文字区域对应的位置坐标;采用预置神经卷积网络对所述文字区域中的文字进行识别,得到文本文字;利用正则表达式在所述文本文字中查询待混淆文本以及所述待混淆文本对应的位置坐标,并利用颜色提取算法提取所述待混淆文本的 ...
【技术保护点】
1.一种待混淆文本的处理方法,其特征在于,所述待混淆文本的处理方法包括:/n获取待混淆页面,在所述待混淆页面中利用目标检测模型确定文字区域,并确定所述文字区域对应的位置坐标;/n采用预置神经卷积网络对所述文字区域中的文字进行识别,得到文本文字;/n利用正则表达式在所述文本文字中查询待混淆文本以及所述待混淆文本对应的位置坐标,并利用颜色提取算法提取所述待混淆文本的文字颜色;/n根据所述待混淆文本的文字颜色,在所述待混淆文本的位置坐标所对应的待混淆界面上生成混淆图层,利用所述混淆图层对所述待混淆文本进行覆盖,得到覆盖页面。/n
【技术特征摘要】
1.一种待混淆文本的处理方法,其特征在于,所述待混淆文本的处理方法包括:
获取待混淆页面,在所述待混淆页面中利用目标检测模型确定文字区域,并确定所述文字区域对应的位置坐标;
采用预置神经卷积网络对所述文字区域中的文字进行识别,得到文本文字;
利用正则表达式在所述文本文字中查询待混淆文本以及所述待混淆文本对应的位置坐标,并利用颜色提取算法提取所述待混淆文本的文字颜色;
根据所述待混淆文本的文字颜色,在所述待混淆文本的位置坐标所对应的待混淆界面上生成混淆图层,利用所述混淆图层对所述待混淆文本进行覆盖,得到覆盖页面。
2.根据权利要求1所述的待混淆文本的处理方法,其特征在于,所述获取待混淆页面,在所述待混淆页面中利用目标检测模型确定文字区域,并确定所述文字区域对应的位置坐标包括:
获取待混淆页面,在所述待混淆页面获取原始选框,并获取所述原始选框的中心坐标、高度、宽度,所述原始选框用于框选文字区域;
对所述原始选框的中心坐标、高度、宽度进行边框回归,得到文字区域和所述文字区域对应的位置坐标。
3.根据权利要求2所述的待混淆文本的处理方法,其特征在于,所述对所述原始选框的中心坐标、高度、宽度进行边框回归,得到文字区域和所述文字区域对应的位置坐标包括:
获取所述原始选框的特征向量x,y,w,h,其中,x,y分别为所述原始选框中心点的横坐标和纵坐标,w为所述原始选框的宽度,h为所述原始选框的高度;
通过所述原始选框的特征向量与预置公式计算所述原始选框的损失函数,预置公式如下:
loss=SoftMax(a,b,c)+s×d((x,y,h,w)-GT)
在式中:a,b,c分别表示原始选框的文本置信度,d表示欧式距离,为经过大量训练得到x,y,w,h的真实移动值所构成的坐标,s为x,y,w,h构成的坐标点与GT构成的坐标点之间的权重;
将所述原始选框的损失函数与所述原始选框的特征向量相结合,得到目标选框,将所述目标选框框选的范围确定为文字区域,所述目标选框的位置坐标确定为所述文字区域对应的位置坐标。
4.根据权利要求1所述的待混淆文本的处理方法,其特征在于,所述采用预置神经卷积网络对所述文字区域中的文字进行识别,得到文本文字包括:
截取所述待混淆页面中的所述文字区域,将截取后的页面确定为截取页面;
将所述截取页面输入至预置神经卷积网络中,通过所述预置神经卷积网络对所述截取页面进行第一卷积计算,生成第一卷积结果,对所述第一卷积结果进行第一池化处理,得到第一池化结果;
对所述第一池化结果进行第二卷积计算,生成第二卷积结果,对所述第二卷积结果进行第二池化处理,得到第二池化结果;
将所述第二池化结果输入至所述预置神经卷积网络中的全连接层、隐藏层和分类识别层中,生成所述文字区域中对应的文本文字。
5.根据权利要求1...
【专利技术属性】
技术研发人员:刘振涛,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。