一种用户隐私数据的风险内容识别方法、装置及系统制造方法及图纸

技术编号：26891360 阅读：28 留言：0更新日期：2020-12-29 16:09

本说明书一个或多个实施例提供了一种用户隐私数据的风险内容识别方法、装置及系统，其中，该方法应用于客户端，该方法包括：监测用户使用客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型，对上述用户隐私数据进行语义识别，得到相应的语义表征信息；其中，该预设语义表征模型是利用预设知识蒸馏方法处理后部署于客户端的语义表征模型。若上述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量，则向服务端发送该第一语义特征向量，以使服务端基于该第一语义特征向量对用户隐私数据进行风险内容识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户隐私数据的风险内容识别方法、装置及系统
本文件涉及互联网
，尤其涉及一种用户隐私数据的风险内容识别方法、装置及系统。
技术介绍
目前，随着互联网时代的到来，互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现。同时，随着移动互联网的快速发展，各互联网服务提供方通过开发各自的应用程序为用户提供相应的业务服务，用户可以根据各自的实际需求在智能手机中安装相应的应用程序，例如，资讯应用、视频应用、聊天应用、购物应用、支付应用等等。然而，应用程序向用户展示的页面浏览信息可能添加有风险内容，尤其在大量正常浏览信息中添加少量风险信息，导致风险信息被隐没；以及，由于考虑到用户的页面浏览信息可能属于用户隐私数据，在用户无感知的情况下，客户端直接将用户隐私数据(如用户在某一网页页面上的浏览内容)上传至服务端，以使服务端对用户隐私数据中是否存在风险信息进行识别，从而导致存在侵犯用户隐私的问题，因此，无法同时兼顾用户隐私保护和内容风险内容识别。由此可知，需要提供一种在确保用户隐私保护的前提下对用户隐私数据进行风险内容识别的技术方案。
技术实现思路
本说明书一个或多个实施例的目的是提供一种用户隐私数据的风险内容识别方法。应用于客户端，该用户隐私数据的风险内容识别方法包括：监测用户使用所述客户端中的目标应用所产生的用户隐私数据。利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息；其中，所述预设语义表征模型是利用预设知识蒸馏方...

【技术保护点】
1.一种用户隐私数据的风险内容识别方法，应用于客户端，包括：/n监测用户使用所述客户端中的目标应用所产生的用户隐私数据；/n利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息；其中，所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型；/n若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量，则向服务端发送所述第一语义特征向量，以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。/n

【技术特征摘要】
1.一种用户隐私数据的风险内容识别方法，应用于客户端，包括：
监测用户使用所述客户端中的目标应用所产生的用户隐私数据；
利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息；其中，所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型；
若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量，则向服务端发送所述第一语义特征向量，以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别。

2.根据权利要求1所述的方法，其中，所述监测用户使用所述客户端中的目标应用所产生的用户隐私数据，包括：
在监听到用户针对所述客户端中的目标应用的触发操作后，获取所述用户在所述目标应用下的操作页面显示信息；
基于所述操作页面显示信息，确定所述用户使用所述目标应用所产生的用户隐私数据。

3.根据权利要求2所述的方法，其中，所述目标应用包括：接入指定宿主应用的小程序或Html5网页；
所述在监听到用户针对所述客户端中的目标应用的触发操作后，获取所述用户在所述目标应用下的操作页面显示信息，包括：
在监听到用户针对所述指定宿主应用的触发操作后，获取所述用户在所述小程序或Html5网页下所浏览的页面文本信息；
将所述页面文本信息确定为所述用户在所述目标应用下的操作页面显示信息。

4.根据权利要求1所述的方法，其中，所述用户隐私数据包括：用户在所述目标应用下所浏览的页面文本信息；
所述利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息，包括：
对所述页面文本信息进行拆分处理，得到多个待识别文本内容语句；
利用预设语义表征模型，对各所述文本内容语句进行语义识别，得到各所述文本内容语句的语义特征向量和风险权重；
根据各所述文本内容语句的所述语义特征向量和所述风险权重，确定相应的语义表征信息。

5.根据权利要求4所述的方法，其中，所述利用预设语义表征模型，对各所述文本内容语句进行语义识别，得到各所述文本内容语句的语义特征向量和风险权重，包括：
将各所述文本内容语句输入至所述预设语义表征模型，得到各所述文本内容语句的语义特征向量；以及，
利用所述预设语义表征模型，针对每个所述文本内容语句，确定该文本内容语句中包含的可疑风险词的数量；
根据所述可疑风险词的数量，确定所述文本内容语句的风险权重；其中，所述风险权重与所述可疑风险词的数量正相关。

6.根据权利要求4所述的方法，其中，所述语义表征信息还包括：用于表征无风险内容语句的第二语义特征向量；
所述第二语义特征向量对应的所述风险权重小于所述第一语义特征向量对应的所述风险权重。

7.根据权利要求4所述的方法，其中，所述对所述页面文本信息进行拆分处理，得到多个待识别文本内容语句，包括：
判断所述页面文本信息的字符长度是否大于最大字符长度；
若是，则按照所述最大字符长度，对所述页面文本信息进行拆分处理，得到多个待识别的文本内容语句。

8.根据权利要求4所述的方法，其中，在利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息之后，还包括：
根据各所述文本内容语句的所述风险权重，确定所述页面文本信息是否包含可疑的文本内容语句；
若包含，则确定所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量。

9.根据权利要求8所述的方法，其中，若所述可疑风险词的数量为零的所述文本内容语句对应的风险权重为零；
所述根据各所述文本内容语句的所述风险权重，确定所述页面文本信息是否包含可疑的文本内容语句，包括：
若存在至少一个风险权重不为零，则确定页面文本信息包含可疑的文本内容语句；以及，
按照风险权重由高到低的顺序，将排序靠前的预设数量的所述风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量；或者，将多个所述风险权重中大于预设风险阈值的风险权重对应的语义特征向量确定为用于表征可疑风险内容语句的第一语义特征向量。

10.根据权利要求1所述的方法，其中，所述目标应用包括：接入指定宿主应用的小程序或Html5网页；
所述向服务端发送所述第一语义特征向量，包括：
向所述指定宿主应用对应的服务端发送所述第一语义特征向量。

11.根据权利要求1所述的方法，其中，所述向服务端发送所述第一语义特征向量，以使所述服务端基于所述第一语义特征向量对所述用户隐私数据进行风险内容识别，包括：
将所述第一语义特征向量和所述目标应用的标识信息上传至服务端，以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句，则对所述目标应用进行预设处理。

12.根据权利要求11所述的方法，其中，在将所述第一语义特征向量和所述目标应用的标识信息上传至服务端，以使所述服务端基于所述第一语义特征向量对所述可疑风险内容语句进行风险内容识别、若确定所述可疑风险内容语句为风险内容语句，则对所述目标应用进行预设处理之后，还包括：
接收所述服务端返回的针对所述目标应用的预设处理结果，其中，所述预设处理结果为在所述服务端确定所述可疑风险内容语句为风险内容语句时所生成的；
根据针对所述目标应用的所述预设处理结果，向所述用户展示相应的异常提示信息。

13.根据权利要求1至12任一项所述的方法，其中，在监测用户使用所述客户端中的目标应用所产生的用户隐私数据之前，还包括：
接收服务端下发的预设语义表征模型的文件包信息；其中，所述预设语义表征模型是利用知识蒸馏方法并基于预设语料样本训练得到的；所述预设语料样本包括：正常语料样本；
基于所述文件包信息，在本地存储所述预设语义表征模型。

14.根据权利要求1至12任一项所述的方法，其中，所述预设语义表征模型包括：BERT模型。

15.一种用户隐私数据的风险内容识别装置，设置于客户端，包括：
用户隐私数据监测模块，其监测用户使用所述客户端中的目标应用所产生的用户隐私数据；
隐私数据语义识别模块，其利用预设语义表征模型，对所述用户隐私数据进行语义识别，得到相应的语义表征信息；其中，所述预设语义表征模型是利用预设知识蒸馏方法处理后部署于所述客户端的语义表征模型；
语义特征向量上传模块，其若所述语义表征信息包括用于表征可疑风险内容语句的第一语义特征向量，则向服务端发送所述第一语义特征向量，以使所述服务端基于所述第一语义特...

【专利技术属性】
技术研发人员：陈永环，侯辉超，张正雄，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人