一种面向社交媒体的敏感数据发现方法技术

技术编号:26259376 阅读:43 留言:0更新日期:2020-11-06 17:53
本发明专利技术提出一种面向社交媒体的敏感数据发现方法,属于人工智能领域,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题。

【技术实现步骤摘要】
一种面向社交媒体的敏感数据发现方法
本专利技术属于人工智能领域,具体涉及一种面向社交媒体的敏感数据发现方法。
技术介绍
社交媒体包含新闻网站、论坛、微博、微信等,其已经融入人们日常生活中,人们通过社交媒体获取和交流信息,使得社交媒体信息呈现出爆炸式增长的趋势。在舆情分析、公安侦查等方面,可以从这些海量信息中发现与任务相关的敏感信息,是非常具有挑战性的任务,依靠传统的关键词匹配和有监督分类算法,在社交媒体海量数据情况下,难以高效、准确的解决敏感信息发现问题。许多敏感信息会通过行话、术语来进行交流从而逃避监管。基于传统的关键词过滤的方法,通过构建敏感信息字典和匹配字符串的方式,来对敏感信息进行过滤。例如,申请号CN201911195301.3公开了一种数据中心查询系统,其首页人工定义敏感数据的模式,然后通过匹配式正则匹配和字典匹配方法来对数据进行逐一匹配,从而发现敏感数据。但是由于一词多义、社交媒体用语不规范和行话的使用,当这一类方法应用于社交媒体数据时,会过滤出大量的无关信息,从这些信息中甄别出有意义的内容,需要耗费大量的人力且缺乏时效性本文档来自技高网...

【技术保护点】
1.一种面向社交媒体的敏感数据发现方法,其特征在于,包括以下步骤:/n抽取待发现文档的全部词汇,得到文档词汇;/n基于词向量,计算每个文档词与每类敏感信息的代表词的最大相似度,将该最大相似度作为该文档词与每个敏感信息类别的相似度,其中每类敏感信息构成一个敏感信息类别,代表词为每类敏感信息中被标注出的关键词;/n将文档词与敏感信息类别的相似度输入到弱监督文本分类模型中,得到主题词以及对应的文档;/n计算主题词与敏感信息类别的相似度,若相似度高于一设定阈值且主题词数不小于一定数量,则判定该主题词的主题与敏感信息类型一致,为敏感信息主题;/n从敏感信息主题中,筛选出最大概率主题为敏感信息类型的文档,...

【技术特征摘要】
1.一种面向社交媒体的敏感数据发现方法,其特征在于,包括以下步骤:
抽取待发现文档的全部词汇,得到文档词汇;
基于词向量,计算每个文档词与每类敏感信息的代表词的最大相似度,将该最大相似度作为该文档词与每个敏感信息类别的相似度,其中每类敏感信息构成一个敏感信息类别,代表词为每类敏感信息中被标注出的关键词;
将文档词与敏感信息类别的相似度输入到弱监督文本分类模型中,得到主题词以及对应的文档;
计算主题词与敏感信息类别的相似度,若相似度高于一设定阈值且主题词数不小于一定数量,则判定该主题词的主题与敏感信息类型一致,为敏感信息主题;
从敏感信息主题中,筛选出最大概率主题为敏感信息类型的文档,若文档的最大概率大于一设定阈值,则判定文档内容属于敏感数据。


2.如权利要求1所述的方法,其特征在于,敏感信息包括互联网公开的词向量数据或通过词向量模型词向量训练得到的词向量数据,词向量模型包括Word2Vec算法或Glove算法。


3.如权利要求2所述的方法,其特征在于,词向量训练的步骤包括:
根据敏感信息关键词,从论文、微博、新闻网站中爬取与关键词相关的文本;
将爬取的文本和公开的语料库合并再分词,该语料库包括维基百科、百度百科;
对分词后的文本进行词向量训练。


4.如权利要求1所述的方法,其特征在于,文档词与代表词的相似度是通过计算文档词与代表词的词向量之间的余弦相似度得到。


5.如权利要求4所述的方法,其特征在于,最大相似度计算公式为:



其中,δz,w表示计算出的敏感信息z与文档词w的相似度,sz,i表示第z类敏感信息的第i个代表词,sim()表示词向量余弦相似度。


6.如权利要求1所述的方法,其特征在于,弱监督文本分类模型优选为SeedTBTM模型,该SeedTBTM模型是以用户短文本主题模型Twitter-BTM为基础,增加了文档词与敏感信息类别的相似度参数δz,w。


7.如权利要求6所述的方法,其特征在于,将文档词与敏感信息类别的相似度输入到SeedTBTM模型中,处理步骤包括:
1)利用得到背景主题B的主题词先验分布再利用πu~Beta(γ)得到用户u选择主题词还是背景主题词的倾向πu,其中为背景主题B在词典中的背景主题-词多项分布,Dir(β)为狄利克雷先验分布,β为狄利克雷先验参数,πu为伯努利分布,Beta(γ)为贝塔先验分布,γ为贝塔先验参数;
2)对于每一个主题z=1,...,K,主题z为敏感信息类别...

【专利技术属性】
技术研发人员:杨翊朱嘉奇王宏安
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1