一种用户隐私数据的风险内容识别方法、装置及系统制造方法及图纸

技术编号:26891360 阅读:28 留言:0更新日期:2020-12-29 16:09
本说明书一个或多个实施例提供了一种用户隐私数据的风险内容识别方法、装置及系统,其中,该方法应用于客户端,该方法包括:监测用户使用客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对上述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型。若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送该第一语义特征向量,以使服务端基于该第一语义特征向量对用户隐私数据进行风险内容识别。

【技术实现步骤摘要】
一种用户隐私数据的风险内容识别方法、装置及系统
本文件涉及互联网
,尤其涉及一种用户隐私数据的风险内容识别方法、装置及系统。
技术介绍
目前,随着互联网时代的到来,互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现。同时,随着移动互联网的快速发展,各互联网服务提供方通过开发各自的应用程序为用户提供相应的业务服务,用户可以根据各自的实际需求在智能手机中安装相应的应用程序,例如,资讯应用、视频应用、聊天应用、购物应用、支付应用等等。然而,应用程序向用户展示的页面浏览信息可能添加有风险内容,尤其在大量正常浏览信息中添加少量风险信息,导致风险信息被隐没;以及,由于考虑到用户的页面浏览信息可能属于用户隐私数据,在用户无感知的情况下,客户端直接将用户隐私数据(如用户在某一网页页面上的浏览内容)上传至服务端,以使服务端对用户隐私数据中是否存在风险信息进行识别,从而导致存在侵犯用户隐私的问题,因此,无法同时兼顾用户隐私保护和内容风险内容识别。由此可知,需要提供一种在确保用户隐私保护的前提下对用户隐私数据进行风险内容识别的技术方案。
技术实现思路
本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别方法。应用于客户端,该用户隐私数据的风险内容识别方法包括:监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别装置。设置于客户端,该用户隐私数据的风险内容识别装置包括:用户隐私数据监测模块,其监测用户使用所述客户端中的目标应用所产生的用户隐私数据。隐私数据语义识别模块,其利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。语义特征向量上传模块,其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器。所述计算机可执行指令在被执行时使所述处理器监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。本说明书一个或多个实施例的目的是提供一种存储介质,用于存储计算机可执行指令。所述可执行指令在被处理器执行时监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型。若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别系统的应用场景示意图;图2为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第一种流程示意图;图3为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第二种流程示意图;图4为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第三种流程示意图;图5为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第四种流程示意图;图6为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第五种流程示意图;图7为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第六种流程示意图;图8为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别方法的第七种流程示意图;图9为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别装置的模块组成示意图;图10为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别装置的系统结构示意图;图11为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别设备的结构示意图。具体实施方式为了使本
的人员更好地理解本说明书一个或多个中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。需要说明的是,在不冲突的情况下,本说明书中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本说明书一个或多个实施例。本说明书一个或多个实施例提供了一种用户隐私数据的风险内容识别方法、装置及系统,在客户端侧实时监测用户使用目标应用所产生的用户隐私数据,利用预设语义表征模型,对该用户隐私数据进行语义特征向量转换以及可疑风险内容语句初步识别,并且将生成的用于表征可疑风险内容语句的语义特征向量发送至服务端,即由客户端以语义特征向量的形式向服务端上传初步筛选出的可疑隐私数据,以使服务端基于该语义特征向量对用户隐私数据进行最终风险内容识别,这样能够避免因直接将用户隐私数据上传给服务端所带来的用户隐私泄露的问题,从而实现在保护用户隐私的情况下,对用户隐私数据进行风险内容识别,进而及时对风险内容信息或风险内容信息的载体进行管控。图1为本说明书一个或多个实施例提供的用户隐私数据的风险内容识别系统的应用场景示意图,如图1所示,该系统包括:客户端、业务处理服务端和风险识别服务端,其中,该客户端可本文档来自技高网
...

【技术保护点】
1.一种用户隐私数据的风险内容识别方法,应用于客户端,包括:/n监测用户使用所述客户端中的目标应用所产生的用户隐私数据;/n利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;/n若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。/n

【技术特征摘要】
1.一种用户隐私数据的风险内容识别方法,应用于客户端,包括:
监测用户使用所述客户端中的目标应用所产生的用户隐私数据;
利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。


2.根据权利要求1所述的方法,其中,所述监测用户使用所述客户端中的目标应用所产生的用户隐私数据,包括:
在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息;
基于所述操作页面显示信息,确定所述用户使用所述目标应用所产生的用户隐私数据。


3.根据权利要求2所述的方法,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述在监听到用户针对所述客户端中的目标应用的触发操作后,获取所述用户在所述目标应用下的操作页面显示信息,包括:
在监听到用户针对所述指定宿主应用的触发操作后,获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息;
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。


4.根据权利要求1所述的方法,其中,所述用户隐私数据包括:用户在所述目标应用下所浏览的页面文本信息;
所述利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息,包括:
对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句;
利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重;
根据各所述文本内容语句的所述语义特征向量和所述风险权重,确定相应的语义表征信息。


5.根据权利要求4所述的方法,其中,所述利用预设语义表征模型,对各所述文本内容语句进行语义识别,得到各所述文本内容语句的语义特征向量和风险权重,包括:
将各所述文本内容语句输入至所述预设语义表征模型,得到各所述文本内容语句的语义特征向量;以及,
利用所述预设语义表征模型,针对每个所述文本内容语句,确定该文本内容语句中包含的可疑风险词的数量;
根据所述可疑风险词的数量,确定所述文本内容语句的风险权重;其中,所述风险权重与所述可疑风险词的数量正相关。


6.根据权利要求4所述的方法,其中,所述语义表征信息还包括:用于表征无风险内容语句的第二语义特征向量;
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。


7.根据权利要求4所述的方法,其中,所述对所述页面文本信息进行拆分处理,得到多个待识别文本内容语句,包括:
判断所述页面文本信息的字符长度是否大于最大字符长度;
若是,则按照所述最大字符长度,对所述页面文本信息进行拆分处理,得到多个待识别的文本内容语句。


8.根据权利要求4所述的方法,其中,在利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息之后,还包括:
根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句;
若包含,则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。


9.根据权利要求8所述的方法,其中,若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零;
所述根据各所述文本内容语句的所述风险权重,确定所述页面文本信息是否包含可疑的文本内容语句,包括:
若存在至少一个风险权重不为零,则确定页面文本信息包含可疑的文本内容语句;以及,
按照风险权重由高到低的顺序,将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量;或者,将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。


10.根据权利要求1所述的方法,其中,所述目标应用包括:接入指定宿主应用的小程序或Html5网页;
所述向服务端发送所述第一语义特征向量,包括:
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。


11.根据权利要求1所述的方法,其中,所述向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别,包括:
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理。


12.根据权利要求11所述的方法,其中,在将所述第一语义特征向量和所述目标应用的标识信息上传至服务端,以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句,则对所述目标应用进行预设处理之后,还包括:
接收所述服务端返回的针对所述目标应用的预设处理结果,其中,所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的;
根据针对所述目标应用的所述预设处理结果,向所述用户展示相应的异常提示信息。


13.根据权利要求1至12任一项所述的方法,其中,在监测用户使用所述客户端中的目标应用所产生的用户隐私数据之前,还包括:
接收服务端下发的预设语义表征模型的文件包信息;其中,所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的;所述预设语料样本包括:正常语料样本;
基于所述文件包信息,在本地存储所述预设语义表征模型。


14.根据权利要求1至12任一项所述的方法,其中,所述预设语义表征模型包括:BERT模型。


15.一种用户隐私数据的风险内容识别装置,设置于客户端,包括:
用户隐私数据监测模块,其监测用户使用所述客户端中的目标应用所产生的用户隐私数据;
隐私数据语义识别模块,其利用预设语义表征模型,对所述用户隐私数据进行语义识别,得到相应的语义表征信息;其中,所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型;
语义特征向量上传模块,其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量,则向服务端发送所述第一语义特征向量,以使所述服务端基于所述第一语义特...

【专利技术属性】
技术研发人员:陈永环侯辉超张正雄
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1