【技术实现步骤摘要】
一种基于卷积神经网络和关键词聚类的热点事件检测方法
本专利技术属于网络信息
,特别涉及一种基于卷积神经网络和关键词聚类的热点事件检测方法。
技术介绍
随着互联网的飞速发展与进步,互联网已成为人们获取和交流信息的最重要的平台之一。用户可以通过网络发布文字、图片、音频、视频等信息,并可以对该发布内容作出评论。由于网络传播信息的速度极快,突发事件或热点事件在网络上的传播速度和影响范围远远大于传统媒体,这就使得互联网上容易散步不良信息,如欺诈性的信息或是危害国家安全的信息。同时,网络文本中包含了大量反应民意的舆情信息,因此针对网络上的海量数据进行挖掘、分析、监控和预测,有利于尽早检测热点事件并从中抽取重要信息。目前现有的热点事件检索方法是基于人工监控的方式对互联网舆情信息进行监控并分析热点事件。然而该方式需要大量人工,成本较高,处理速度较慢。还有一种做法是利用计算机对特定网站的文本进行关键词提取,提取出热点关键词,再由人工分析出与这些热点关键词对应的热点信息。但是单个关键词包含信息少,对其进行聚类,延长了获取热点事件的时间,降低了获取热点事件的效率,影响对热点信息的判断。近年来,神经网络在自然语言处理的各个领域获得了令人瞩目的成就,一方面它克服了人工设计特征的局限性,另一方面它更适用于处理海量数据。因此本专利技术采用基于神经网络的有监督算法实现对于网络海量数据的事件抽取。
技术实现思路
本专利技术的目的是提供了一种能够利用神经网络实现文本学习,处理海量网络数据准确性强,效率高,并采用监督学习方法的基于卷积神经网络和关键词聚类的热点事件检测方法。为实现上述目的,本 ...
【技术保护点】
1.一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:包括以下步骤:设已知事件类型的训练集Ttrain={ttrain_1 ,ttrain_2 ,… ,ttrain_N ;ytrain_1 ,ytrain_2 ,… ytrain_N} ,其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息, ytrain_i表示网络所属的事件类型且ytrain_i∈{0 ,1 ,2 ,3},时间段t内采集的网络测试集Ttest={ttest_1 ,ttest_2 ,… ,ttest_N};步骤1:获取网络中当前时间段内的网络文本数据;步骤2:建立初滤的关键字集合;步骤3:对测试集中的网络文本进行初滤;步骤4:对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理,统计分词得到的各个词在所述网络文本数据中的出现次数;步骤5:获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数 ;所述历史时间段和所述当前时间段的时间长度相等;步骤6:对所述各个词在所述网络文本数据中的出现次数和在历史网络文 ...
【技术特征摘要】
2019.03.27 CN 20191023543231.一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:包括以下步骤:设已知事件类型的训练集Ttrain={ttrain_1,ttrain_2,…,ttrain_N;ytrain_1,ytrain_2,…ytrain_N},其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息,ytrain_i表示网络所属的事件类型且ytrain_i∈{0,1,2,3},时间段t内采集的网络测试集Ttest={ttest_1,ttest_2,…,ttest_N};步骤1:获取网络中当前时间段内的网络文本数据;步骤2:建立初滤的关键字集合;步骤3:对测试集中的网络文本进行初滤;步骤4:对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理,统计分词得到的各个词在所述网络文本数据中的出现次数;步骤5:获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数;所述历史时间段和所述当前时间段的时间长度相等;步骤6:对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较,确定所述网络文本数据中的热词;步骤7:获取所述网络文本数据中包括所述热词的网络文本;步骤8:对于训练集Ttrain,训练卷积神经网络,得到事件分类模型;步骤9:利用步骤8得到的事件分类模型对经过步骤3预处理后的测试集网络文本进行分类,并将类型为其他的网络文本滤除;步骤10:对包括所述热词的网络文本进行聚类,利用K-means算法将测试集中同一类型的网络文本聚类成多个事件实例簇,确定所述网络文本数据中的热点事件。2.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:所述步骤2具体包含以下步骤:步骤2.1:对于每个待检测的特定事件类型名称,分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表;步骤2.2:对于每个类型,分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词,扩充其关键词集合;步骤2.3:对于每个类型,分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表,扩充其关键词集合;步骤2.4:将三个关键字集合合并得到关键字集合。3.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:所述步骤3具体包含以下步骤;步骤3.1:若网络文本中包含hashtag,且hashtag中包含关键字集合中的关键字,则判定该网络文本与特定事件相关;步骤3.2:若上述条件不符合,则计算网络文本与关键字集合间的Jaccard相似度,若该相似度高于预设阈值,则判定该网络文本与事件相关。4.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法,其特征在于:步骤6所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文...
【专利技术属性】
技术研发人员:贺英,云红艳,张秀华,胡欢,林莉,
申请(专利权)人:青岛大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。