一种社交媒体用户隐私泄漏检测方法、系统、设备及介质技术方案

技术编号：21971828 阅读：32 留言：0更新日期：2019-08-28 01:33

本公开公开了一种社交媒体用户隐私泄漏检测方法、系统、设备及介质，包括：采集待预测社交媒体用户发布内容；对待预测社交媒体用户发布内容，通过第一注意力机制模型Attention Model，学习待预测的学习句子表示；基于待预测的句子表示，通过第二注意力机制模型Attention Model，学习待预测社交媒体用户发布内容的表示；将待预测社交媒体用户发布内容的表示，输入到预先训练好的预测模型中，输出待预测社交媒体用户的隐私是否泄露，以及所泄露隐私的类型。

A Detection Method, System, Equipment and Media for Social Media User Privacy Leakage

全部详细技术资料下载

【技术实现步骤摘要】
一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
本公开涉及隐私泄露检测
，特别是涉及一种社交媒体用户隐私泄漏检测方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
，并不必然构成现有技术。在实现本公开的过程中，专利技术人发现现有技术中存在以下技术问题：随着移动互联网的不断发展，社交媒体已经成为新媒体的代言人。人们通过社交媒体获取信息，分享见解，然而随着用户暴露在社交媒体中的程度越来越大，隐私泄露成为关乎每个网络用户切身利益的重要问题。近年来，社交媒体用户隐私检测问题引起许多研究者的注意。然而现有的技术主要应用于结构化数据，对于非结构化数据，依赖于手动提取的特征，忽略了用户发布内容中存在的内部联系，使得模型的可解释性较差。现有技术存在以下技术问题需要解决：用户发布内容中的单词和句子通常有不同的置信度水平，现有技术主要应用于结构化数据，对于非结构化数据，依赖于手动提取的特征，忽略了不同单词和句子在隐私检测中的置信度，对内容表示不准确。
技术实现思路
为了解决现有技术的不足，本公开提供了一种社交媒体用户隐私泄漏检测方法、系统、设备及介质，其通过学习用户发布内容的精确表示，判断用户在社交媒体上隐私泄露的风险。由于不同单词和句子在用户内容表示中有不同的置信水平，本公开引入双层注意力机制实现单词和句子置信度的自动分配，从而提高了用户隐私泄漏检测的建模性能和模型的可解释性。第一方面，本公开提供了一种社交媒体用户隐私泄漏检测方法；一种社交媒体用户隐私泄漏检测方法，包括：采集待预测社交媒体用户发布内容；对待预测社交媒体用户发布内容，通过第...

【技术保护点】
1.一种社交媒体用户隐私泄漏检测方法，其特征是，包括：采集待预测社交媒体用户发布内容；对待预测社交媒体用户发布内容，通过第一注意力机制模型Attention Model，学习待预测的学习句子表示；基于待预测的句子表示，通过第二注意力机制模型Attention Model，学习待预测社交媒体用户发布内容的表示；将待预测社交媒体用户发布内容的表示，输入到预先训练好的预测模型中，输出待预测社交媒体用户的隐私是否泄露，以及所泄露隐私的类型。

【技术特征摘要】
1.一种社交媒体用户隐私泄漏检测方法，其特征是，包括：采集待预测社交媒体用户发布内容；对待预测社交媒体用户发布内容，通过第一注意力机制模型AttentionModel，学习待预测的学习句子表示；基于待预测的句子表示，通过第二注意力机制模型AttentionModel，学习待预测社交媒体用户发布内容的表示；将待预测社交媒体用户发布内容的表示，输入到预先训练好的预测模型中，输出待预测社交媒体用户的隐私是否泄露，以及所泄露隐私的类型。2.如权利要求1所述的方法，其特征是，所述预先训练好的预测模型的训练步骤，包括：构建预测模型；采集社交媒体用户发布内容，对用户发布内容通过第一注意力机制模型，学习训练集句子表示；基于句子表示，通过第二注意力机制模型，学习用户发布内容的表示；基于用户发布内容的表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签，构建社交媒体用户隐私数据训练集；基于训练集对预测模型进行训练，得到训练好的预测模型。3.如权利要求1所述的方法，其特征是，对待预测社交媒体用户发布内容，通过第一注意力机制模型，待预测的学习句子表示；具体步骤包括：假设待预测社交媒体用户发布内容包括若干个句子，每个句子包括若干个单词；将每个单词映射为词向量；将词向量输入到第一双向门控循环单元中，得到每个单词的表示；通过注意力机制模型，为每个单词的表示分配不同的置信度，形成待预测的具有不同单词置信度的句子表示。4.如权利要求1所述的方法，其特征是，基于待预测的句子表示，通过第二注意力机制模型，学习待预测社交媒体用户发布内容的表示；具体步骤包括：将待预测的具有不同单词置信度的句子表示，输入到第二双向门控循环单元中，得到每个句子的最终表示；通过注意力机制模型，为每个句子的最终表示分配不同的置信度，形成待预测的具有不同句子置信度的内容表示。5.如权利要求1所述的方法，其特征是，基于训练集对预测模型进行训练，得到训练好的预测模型，具体步骤包括：基于待预测的具有不同句子置信度的内容表示、已知用户隐私未泄露标签、已知用户隐私已泄露标签和所泄露隐私类型标签，对预测模型进行训练，当损失函数达到最小值时，得到训练好的预测模型。6.如权利要求3所述的方法，其特征是，对待预测社交媒体用户发布内容，通过第一注意力机制模型，待预测的学习句子表示；具体步骤包括：S11：获取用户发布内容集合进行建模；其中，每一条内容含有M个句子S＝{s1，s2，…，sM}，每一个句子sm含有Pm个单词对于每个单词使用word2vec工具将其映射为词向量基于用户发布内容的层次结构，通过双向门控循环单元BiGRU对单词层进行建...

【专利技术属性】
技术研发人员：宋雪萌，陈潇琳，任瑞阳，孙腾，井佩光，王磊，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人