【技术实现步骤摘要】
一种基于知识图谱的暗网话题发现方法和系统
本专利技术涉及大数据挖掘
,尤其涉及一种基于知识图谱的暗网话题发现方法和系统。
技术介绍
如今,全球已有超过一半人口在使用互联网,但是用户通常所使用的facebook、twitter、youtube、微博等“明网”只是整个互联网的表层部分,而全球互联网绝大部分实际上都是不能被用户通过搜索引擎检索到的,这一部分被称之为“深网”,而“暗网”又是“深网”中可以提供匿名服务与匿名访问的更深层次的互联网络,需要特定的技术手段才可访问暗网。目前正在受到各国政府、企业、公安部门越来越多关注的利用互联网海量异构数据进行话题发现与舆情分析的系统也主要是集中在明网层面,对暗网上的数据进行话题发现与舆情分析往往能产生更具有价值的信息,其发现和分析结果能够对社会安全稳定和经济健康发展产生巨大的情报价值。现有进行互联网话题发现的技术主要是对可被搜索引擎检索到的web页面进行爬取,然后对网页内容进行相似度计算和聚类分析,或者对web文本内容进行词的共现分析和LDA主题模型算法。相似度计算主要有基于距离的相似度计算、余弦相似度计算、编辑距离相似度 ...
【技术保护点】
1.一种基于知识图谱的暗网话题发现方法,其特征在于,包括:对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;将去重处理后的所述暗网数据进行降维处理;通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。
【技术特征摘要】
1.一种基于知识图谱的暗网话题发现方法,其特征在于,包括:对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;将去重处理后的所述暗网数据进行降维处理;通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。2.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,在所述对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理之后,还包括:通过字符串匹配与字典法对与暗网黑话检测无关的停用词进行消除。3.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,所述通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别,包括:将采集的所述暗网数据作为黑话语料集和正常使用语料集作为训练样本进行黑话和正常使用情况下词语的词向量表示的联合训练;将所述黑话语料集和所述正常使用语料集中的同一个词根据各自的数据集,在权重方面,从训练过程中的输入到隐藏层,建立各自的关系,同时确保两个语料集中的词的上下文相结合,并通过隐藏层共同贡献神经网络的输出。4.如权利要求3所述的基于知识图谱的暗网话题发现方法,其特征在于,所述训练样本还包括正常使用情况下的语料集和词语原意语料集。5.如权利要求1所述的基于知识图谱的暗网话题发现方法,其特征在于,所述自然语言处理包括分词、命名实体识别、实体及属性对齐与消歧、事件抽取和关系抽取。6.如权利要求5所述的基于知识图谱的暗网话题发现方法,其特征在于,所述分词用于对包含黑话的文本内容按词义进行切分,以使每一个词都有其独立的语义;所述命名实体识别用于通过算法确定文本内容的各个实体,包括人名、地点、时间日期、机构和产品;所述实体对齐用于通过属性相似性计算得分根据其属性信息将不同来源的实体映射到统一的实体对象上;所述实体消歧用于对具有一词多义的实体确定其在当前上下文环境下的真正含义,实...
【专利技术属性】
技术研发人员:谭庆丰,陈小龙,谭润楠,张宇,顾钊铨,田志宏,殷丽华,
申请(专利权)人:广州大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。