当前位置: 首页 > 专利查询>山东大学专利>正文

一种社交媒体用户隐私泄漏检测方法、系统、设备及介质技术方案

技术编号:21971828 阅读:32 留言:0更新日期:2019-08-28 01:33
本公开公开了一种社交媒体用户隐私泄漏检测方法、系统、设备及介质,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型Attention Model,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型Attention Model,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。

A Detection Method, System, Equipment and Media for Social Media User Privacy Leakage

【技术实现步骤摘要】
一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
本公开涉及隐私泄露检测
,特别是涉及一种社交媒体用户隐私泄漏检测方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:随着移动互联网的不断发展,社交媒体已经成为新媒体的代言人。人们通过社交媒体获取信息,分享见解,然而随着用户暴露在社交媒体中的程度越来越大,隐私泄露成为关乎每个网络用户切身利益的重要问题。近年来,社交媒体用户隐私检测问题引起许多研究者的注意。然而现有的技术主要应用于结构化数据,对于非结构化数据,依赖于手动提取的特征,忽略了用户发布内容中存在的内部联系,使得模型的可解释性较差。现有技术存在以下技术问题需要解决:用户发布内容中的单词和句子通常有不同的置信度水平,现有技术主要应用于结构化数据,对于非结构化数据,依赖于手动提取的特征,忽略了不同单词和句子在隐私检测中的置信度,对内容表示不准确。
技术实现思路
为了解决现有技术的不足,本公开提供了一种社交媒体用户隐私泄漏检测方法、系统、设备及介质,其通过学习用户发布内容的精确表示,判断用户在社交媒体上隐私泄露的风险。由于不同单词和句子在用户内容表示中有不同的置信水平,本公开引入双层注意力机制实现单词和句子置信度的自动分配,从而提高了用户隐私泄漏检测的建模性能和模型的可解释性。第一方面,本公开提供了一种社交媒体用户隐私泄漏检测方法;一种社交媒体用户隐私泄漏检测方法,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型AttentionModel,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型AttentionModel,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。第二方面,本公开还提供了一种社交媒体用户隐私泄漏检测系统;一种社交媒体用户隐私泄漏检测系统,包括:采集模块,其被配置为采集待预测社交媒体用户发布内容;第一学习模块,其被配置为对待预测社交媒体用户发布内容,通过第一注意力机制模型AttentionModel,学习待预测的学习句子表示;第二学习模块,其被配置为基于待预测的句子表示,通过第二注意力机制模型AttentionModel,学习待预测社交媒体用户发布内容的表示;预测模块,其被配置为将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:本公开对用户发布内容构建层次结构,分为单词层和句子层,通过使用表示学习技术,形成用户发布内容的精确表示。本公开引入的双层注意力机制可以实现单词和句子置信度的自动分配,解决不同单词和句子在用户内容表示中有不同的置信水平的问题。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为一个或多个实施方式的流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。表示学习:表示学习是学习特征的技术的集合,将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机在学习使用特征的同时,也学习如何提取特征。注意力机制(AttentionModel):注意力机制是由人类观察环境的习惯规律总结而来的,人类在观察环境时,大脑往往只关注某几个特别重要的局部,获取需要的信息,构建出关于环境的某种描述。注意力机制通过学习不同局部的重要性,生成对应权重,形成更加准确的数据表示。实施例一,本实施例提供了一种社交媒体用户隐私泄漏检测方法;如图1所示,一种社交媒体用户隐私泄漏检测方法,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型AttentionModel,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型AttentionModel,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。利用注意力机制模型的好处是:注意力机制通过学习不同局部的重要性,生成对应权重,从而形成更加准确的数据表示。利用双层注意力机制模型的好处是:本专利技术引入的双层注意力机制可以实现单词和句子置信度的自动分配,解决不同单词和句子在用户内容表示中有不同的置信水平的问题。作为一个或多个实施例,所述预先训练好的预测模型的训练步骤,包括:构建预测模型;采集社交媒体用户发布内容,对用户发布内容通过第一注意力机制模型,学习训练集句子表示;基于句子表示,通过第二注意力机制模型,学习用户发布内容的表示;基于用户发布内容的表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签,构建社交媒体用户隐私数据训练集;基于训练集对预测模型进行训练,得到训练好的预测模型。作为一个或多个实施例,所述待预测社交媒体用户发布内容,具体包括:用户在Twitter等各种社交媒体发布的内容。作为一个或多个实施例,对待预测社交媒体用户发布内容,通过第一注意力机制模型,待预测的学习句子表示;具体步骤包括:假设待预测社交媒体用户发布内容包括若干个句子,每个句子包括若干个单词;将每个单词映射为词向量;将词向量输入到第一双向门控循环单元中,得到每个单词的表示;通过注意力机制模型,为每个单词的表示分配不同的置信度,形成待预测的具有不同单词置信度的句子表示。为每个单词的表示分配不同的置信度的好处是通过为信息量强大的单词分配较高的权重,形成更为准确的句子表示;作为一个或多个实施例,基于待预测的句子表示,通过第二注意力机制模型,学习待预测社交媒体用户发布内容的表示;具体步骤包括:将待预测的具有不同单词置信度的句子表示,输入到第二双向门控循环单元中,得到每个句子的最终表示;通过注意力机制模型,为每个句子的最终表示分配不同的置信度,形成待预测的具有不同句子置信度的内容表示。为每个句子的最终表示分配不同的置信度的好处是通过为信息量强大的句子分配较高的权重,准确本文档来自技高网
...

【技术保护点】
1.一种社交媒体用户隐私泄漏检测方法,其特征是,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型Attention Model,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型Attention Model,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。

【技术特征摘要】
1.一种社交媒体用户隐私泄漏检测方法,其特征是,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型AttentionModel,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型AttentionModel,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。2.如权利要求1所述的方法,其特征是,所述预先训练好的预测模型的训练步骤,包括:构建预测模型;采集社交媒体用户发布内容,对用户发布内容通过第一注意力机制模型,学习训练集句子表示;基于句子表示,通过第二注意力机制模型,学习用户发布内容的表示;基于用户发布内容的表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签,构建社交媒体用户隐私数据训练集;基于训练集对预测模型进行训练,得到训练好的预测模型。3.如权利要求1所述的方法,其特征是,对待预测社交媒体用户发布内容,通过第一注意力机制模型,待预测的学习句子表示;具体步骤包括:假设待预测社交媒体用户发布内容包括若干个句子,每个句子包括若干个单词;将每个单词映射为词向量;将词向量输入到第一双向门控循环单元中,得到每个单词的表示;通过注意力机制模型,为每个单词的表示分配不同的置信度,形成待预测的具有不同单词置信度的句子表示。4.如权利要求1所述的方法,其特征是,基于待预测的句子表示,通过第二注意力机制模型,学习待预测社交媒体用户发布内容的表示;具体步骤包括:将待预测的具有不同单词置信度的句子表示,输入到第二双向门控循环单元中,得到每个句子的最终表示;通过注意力机制模型,为每个句子的最终表示分配不同的置信度,形成待预测的具有不同句子置信度的内容表示。5.如权利要求1所述的方法,其特征是,基于训练集对预测模型进行训练,得到训练好的预测模型,具体步骤包括:基于待预测的具有不同句子置信度的内容表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签,对预测模型进行训练,当损失函数达到最小值时,得到训练好的预测模型。6.如权利要求3所述的方法,其特征是,对待预测社交媒体用户发布内容,通过第一注意力机制模型,待预测的学习句子表示;具体步骤包括:S11:获取用户发布内容集合进行建模;其中,每一条内容含有M个句子S={s1,s2,…,sM},每一个句子sm含有Pm个单词对于每个单词使用word2vec工具将其映射为词向量基于用户发布内容的层次结构,通过双向门控循环单元BiGRU对单词层进行建...

【专利技术属性】
技术研发人员:宋雪萌陈潇琳任瑞阳孙腾井佩光王磊
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1