【技术实现步骤摘要】
一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
本公开涉及隐私泄露检测
,特别是涉及一种社交媒体用户隐私泄漏检测方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:随着移动互联网的不断发展,社交媒体已经成为新媒体的代言人。人们通过社交媒体获取信息,分享见解,然而随着用户暴露在社交媒体中的程度越来越大,隐私泄露成为关乎每个网络用户切身利益的重要问题。近年来,社交媒体用户隐私检测问题引起许多研究者的注意。然而现有的技术主要应用于结构化数据,对于非结构化数据,依赖于手动提取的特征,忽略了用户发布内容中存在的内部联系,使得模型的可解释性较差。现有技术存在以下技术问题需要解决:用户发布内容中的单词和句子通常有不同的置信度水平,现有技术主要应用于结构化数据,对于非结构化数据,依赖于手动提取的特征,忽略了不同单词和句子在隐私检测中的置信度,对内容表示不准确。
技术实现思路
为了解决现有技术的不足,本公开提供了一种社交媒体用户隐私泄漏检测方法、系统、设备及介质,其通过学习用户发布内容的精确表示,判断用户在社交媒体上隐私泄露的风险。由于不同单词和句子在用户内容表示中有不同的置信水平,本公开引入双层注意力机制实现单词和句子置信度的自动分配,从而提高了用户隐私泄漏检测的建模性能和模型的可解释性。第一方面,本公开提供了一种社交媒体用户隐私泄漏检测方法;一种社交媒体用户隐私泄漏检测方法,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第 ...
【技术保护点】
1.一种社交媒体用户隐私泄漏检测方法,其特征是,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型Attention Model,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型Attention Model,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。
【技术特征摘要】
1.一种社交媒体用户隐私泄漏检测方法,其特征是,包括:采集待预测社交媒体用户发布内容;对待预测社交媒体用户发布内容,通过第一注意力机制模型AttentionModel,学习待预测的学习句子表示;基于待预测的句子表示,通过第二注意力机制模型AttentionModel,学习待预测社交媒体用户发布内容的表示;将待预测社交媒体用户发布内容的表示,输入到预先训练好的预测模型中,输出待预测社交媒体用户的隐私是否泄露,以及所泄露隐私的类型。2.如权利要求1所述的方法,其特征是,所述预先训练好的预测模型的训练步骤,包括:构建预测模型;采集社交媒体用户发布内容,对用户发布内容通过第一注意力机制模型,学习训练集句子表示;基于句子表示,通过第二注意力机制模型,学习用户发布内容的表示;基于用户发布内容的表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签,构建社交媒体用户隐私数据训练集;基于训练集对预测模型进行训练,得到训练好的预测模型。3.如权利要求1所述的方法,其特征是,对待预测社交媒体用户发布内容,通过第一注意力机制模型,待预测的学习句子表示;具体步骤包括:假设待预测社交媒体用户发布内容包括若干个句子,每个句子包括若干个单词;将每个单词映射为词向量;将词向量输入到第一双向门控循环单元中,得到每个单词的表示;通过注意力机制模型,为每个单词的表示分配不同的置信度,形成待预测的具有不同单词置信度的句子表示。4.如权利要求1所述的方法,其特征是,基于待预测的句子表示,通过第二注意力机制模型,学习待预测社交媒体用户发布内容的表示;具体步骤包括:将待预测的具有不同单词置信度的句子表示,输入到第二双向门控循环单元中,得到每个句子的最终表示;通过注意力机制模型,为每个句子的最终表示分配不同的置信度,形成待预测的具有不同句子置信度的内容表示。5.如权利要求1所述的方法,其特征是,基于训练集对预测模型进行训练,得到训练好的预测模型,具体步骤包括:基于待预测的具有不同句子置信度的内容表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签,对预测模型进行训练,当损失函数达到最小值时,得到训练好的预测模型。6.如权利要求3所述的方法,其特征是,对待预测社交媒体用户发布内容,通过第一注意力机制模型,待预测的学习句子表示;具体步骤包括:S11:获取用户发布内容集合进行建模;其中,每一条内容含有M个句子S={s1,s2,…,sM},每一个句子sm含有Pm个单词对于每个单词使用word2vec工具将其映射为词向量基于用户发布内容的层次结构,通过双向门控循环单元BiGRU对单词层进行建...
【专利技术属性】
技术研发人员:宋雪萌,陈潇琳,任瑞阳,孙腾,井佩光,王磊,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。