当前位置: 首页 > 专利查询>青岛大学专利>正文

一种基于卷积神经网络和关键词聚类的热点事件检测方法技术

技术编号:22166930 阅读:49 留言:0更新日期:2019-09-21 10:35
本发明专利技术是一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:包括以下步骤:获取网络中的网络文本数据;建立初滤的关键字集合;对测试集中的网络文本进行初滤;对初滤后的测试集中的网络文本进行分词,统计分词得到的各个词在网络文本数据中的出现次数;对各个词在网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定网络文本数据中的热词;获取网络文本数据中包括热词的网络文本;训练卷积神经网络,得到事件分类模型;对处理后的测试集网络文本进行分类,对包括热词的网络文本进行聚类,利用K‑means算法将测试集中同一类型的网络文本聚类成多个事件实例簇,确定所述网络文本数据中的热点事件。

A Hot Event Detection Method Based on Convolutional Neural Network and Keyword Clustering

【技术实现步骤摘要】
一种基于卷积神经网络和关键词聚类的热点事件检测方法
本专利技术属于网络信息
,特别涉及一种基于卷积神经网络和关键词聚类的热点事件检测方法。
技术介绍
随着互联网的飞速发展与进步,互联网已成为人们获取和交流信息的最重要的平台之一。用户可以通过网络发布文字、图片、音频、视频等信息,并可以对该发布内容作出评论。由于网络传播信息的速度极快,突发事件或热点事件在网络上的传播速度和影响范围远远大于传统媒体,这就使得互联网上容易散步不良信息,如欺诈性的信息或是危害国家安全的信息。同时,网络文本中包含了大量反应民意的舆情信息,因此针对网络上的海量数据进行挖掘、分析、监控和预测,有利于尽早检测热点事件并从中抽取重要信息。目前现有的热点事件检索方法是基于人工监控的方式对互联网舆情信息进行监控并分析热点事件。然而该方式需要大量人工,成本较高,处理速度较慢。还有一种做法是利用计算机对特定网站的文本进行关键词提取,提取出热点关键词,再由人工分析出与这些热点关键词对应的热点信息。但是单个关键词包含信息少,对其进行聚类,延长了获取热点事件的时间,降低了获取热点事件的效率,影响对热点信息的判断。近年来,神经网络在自然语言处理的各个领域获得了令人瞩目的成就,一方面它克服了人工设计特征的局限性,另一方面它更适用于处理海量数据。因此本专利技术采用基于神经网络的有监督算法实现对于网络海量数据的事件抽取。
技术实现思路
本专利技术的目的是提供了一种能够利用神经网络实现文本学习,处理海量网络数据准确性强,效率高,并采用监督学习方法的基于卷积神经网络和关键词聚类的热点事件检测方法。为实现上述目的,本专利技术的技术方案是:一种基于卷积神经网络和关键词聚类的热点事件检测方法,包括以下步骤:设已知事件类型的训练集Ttrain={ttrain_1,ttrain_2,…,ttrain_N;ytrain_1,ytrain_2,…ytrain_N},其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息,ytrain_i表示网络所属的事件类型且ytrain_i∈{0,1,2,3},时间段t内采集的网络测试集Ttest={ttest_1,ttest_2,…,ttest_N};步骤1:获取网络中当前时间段内的网络文本数据;步骤2:建立初滤的关键字集合;步骤3:对测试集中的网络文本进行初滤;步骤4:对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理,统计分词得到的各个词在所述网络文本数据中的出现次数;步骤5:获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;步骤6:对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词;步骤7:获取所述网络文本数据中包括所述热词的网络文本;步骤8:对于训练集Ttrain,训练卷积神经网络,得到事件分类模型;步骤9:利用步骤8得到的事件分类模型对经过步骤3预处理后的测试集网络文本进行分类,并将类型为其他的网络文本滤除;步骤10:对包括所述热词的网络文本进行聚类,利用K-means算法将测试集中同一类型的网络文本聚类成多个事件实例簇,确定所述网络文本数据中的热点事件。进一步的,所述步骤2具体包含以下步骤:步骤2.1:对于每个待检测的特定事件类型名称,分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表;步骤2.2:对于每个类型,分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词,扩充其关键词集合;步骤2.3:对于每个类型,分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表,扩充其关键词集合;步骤2.4:将三个关键字集合合并得到关键字集合。进一步的,所述步骤3具体包含以下步骤;步骤3.1:若网络文本中包含hashtag,且hashtag中包含关键字集合中的关键字,则判定该网络文本与特定事件相关;步骤3.2:若上述条件不符合,则计算网络文本与关键字集合间的Jaccard相似度,若该相似度高于预设阈值,则判定该网络文本与事件相关。进一步的,步骤6所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词,包括:计算所述各个词在所述网络文本数据中的出现次数与在历史网络文本数据中的出现次数的比值;将所述比值大于第一阈值的相应词确定为所述网络文本数据中的热词。进一步的,所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词,还包括:计算所述各个词在所述网络文本数据中的出现次数与在历史网络文本数据中的出现次数的差值;所述将所述比值大于第一阈值相应词确定为所述网络文本数据中的热词,包括:将所述比值大于第一阈值,且所述差值大于第二阈值的相应词确定为所述网络文本数据中的热词。进一步的,所述步骤8具体包含以下步骤;步骤8.1:将Ttrain中的每条网络文本由词向量的串联表示,采用200维基于GloVe在网络文本数据集上训练的词向量,通过TF-IDF对词向量进行加权并将hashtag中的词权重加倍;步骤8.2:将上述网络文本向量及标签作为输入,卷积神经网络采用Xavier方法进行初始化,偏置项均初始化为0,采用l2正则化以及dropout策略,通过随机梯度下降法更新输入特征向量以及网络参数,得到事件分类模型。进一步的,所述步骤10具体包含以下步骤:步骤10.1:将网络文本采用卷积神经网络全连接层中的200维向量表示,并利用余弦相似度计算文本相似度;步骤10.2:利用命名实体识别算法抽取网络文本的命名实体,并利用余弦相似度计算命名实体相似度;步骤10.3:根据预处理中词性标注的结果滤除介词、冠词等,滤除命名实体,之后通过基于hashtag加权的TF-IDF算法获得网络文本的关键词,取排名前10的关键词计算关键词相似度;步骤10.4:根据公式计算两条网络文本的相似度。进一步的,步骤10所述对包括所述热词的网络文本进行聚类,确定所述网络文本数据中的热点事件,包括:对包括所述热词的网络文本进行canopy聚类,确定初始类的数目和中心点;根据所述初始类的数目和中心点对包括所述热词的网络文本进行k-means聚类,确定所述网络文本数据中的热点事件。进一步的,所述对包括所述热词的网络文本进行canopy聚类,确定初始类的数目和中心点之前,还包括:查询预设的词表,确定所述热词在所述词表中的序号;根据所述热词在所述词表中的序号和所述热词在所述网络文本数据中的出现次数,确定包括所述热词的网络文本对应的网络文本向量;所述对包括所述热词的网络文本进行canopy聚类,确定初始类的数目和中心点,包括:对所述网络文本向量进行canopy聚类,确定初始类的数目和中心点。本专利技术的有益效果是:利用卷积神经网络实现了文本学习,提取适用于海量数据的泛化能力强、效率高。采用有监督的学习方法,相较于无监督学习方法更具有针对性,可以提供语义清晰的事件表示。通过对热点话题作深层次的信息挖掘,可以实现从多方面对网本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:包括以下步骤:设已知事件类型的训练集Ttrain={ttrain_1 ,ttrain_2 ,… ,ttrain_N ;ytrain_1 ,ytrain_2 ,… ytrain_N} ,其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息, ytrain_i表示网络所属的事件类型且ytrain_i∈{0 ,1 ,2 ,3},时间段t内采集的网络测试集Ttest={ttest_1 ,ttest_2 ,… ,ttest_N};步骤1:获取网络中当前时间段内的网络文本数据;步骤2:建立初滤的关键字集合;步骤3:对测试集中的网络文本进行初滤;步骤4:对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理,统计分词得到的各个词在所述网络文本数据中的出现次数;步骤5:获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数 ;所述历史时间段和所述当前时间段的时间长度相等;步骤6:对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词;步骤7:获取所述网络文本数据中包括所述热词的网络文本;步骤8:对于训练集Ttrain,训练卷积神经网络,得到事件分类模型;步骤9:利用步骤8得到的事件分类模型对经过步骤3预处理后的测试集网络文本进行分类,并将类型为其他的网络文本滤除;步骤10:对包括所述热词的网络文本进行聚类,利用K‑means算法将测试集中同一类型的网络文本聚类成多个事件实例簇,确定所述网络文本数据中的热点事件。...

【技术特征摘要】
2019.03.27 CN 20191023543231.一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:包括以下步骤:设已知事件类型的训练集Ttrain={ttrain_1,ttrain_2,…,ttrain_N;ytrain_1,ytrain_2,…ytrain_N},其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息,ytrain_i表示网络所属的事件类型且ytrain_i∈{0,1,2,3},时间段t内采集的网络测试集Ttest={ttest_1,ttest_2,…,ttest_N};步骤1:获取网络中当前时间段内的网络文本数据;步骤2:建立初滤的关键字集合;步骤3:对测试集中的网络文本进行初滤;步骤4:对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理,统计分词得到的各个词在所述网络文本数据中的出现次数;步骤5:获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;步骤6:对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词;步骤7:获取所述网络文本数据中包括所述热词的网络文本;步骤8:对于训练集Ttrain,训练卷积神经网络,得到事件分类模型;步骤9:利用步骤8得到的事件分类模型对经过步骤3预处理后的测试集网络文本进行分类,并将类型为其他的网络文本滤除;步骤10:对包括所述热词的网络文本进行聚类,利用K-means算法将测试集中同一类型的网络文本聚类成多个事件实例簇,确定所述网络文本数据中的热点事件。2.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:所述步骤2具体包含以下步骤:步骤2.1:对于每个待检测的特定事件类型名称,分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表;步骤2.2:对于每个类型,分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词,扩充其关键词集合;步骤2.3:对于每个类型,分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表,扩充其关键词集合;步骤2.4:将三个关键字集合合并得到关键字集合。3.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:所述步骤3具体包含以下步骤;步骤3.1:若网络文本中包含hashtag,且hashtag中包含关键字集合中的关键字,则判定该网络文本与特定事件相关;步骤3.2:若上述条件不符合,则计算网络文本与关键字集合间的Jaccard相似度,若该相似度高于预设阈值,则判定该网络文本与事件相关。4.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:步骤6所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文...

【专利技术属性】
技术研发人员:贺英云红艳张秀华胡欢林莉
申请(专利权)人:青岛大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1