一种基于文本分类和聚类分析的网络热点事件发现方法技术

技术编号:10821356 阅读:139 留言:0更新日期:2014-12-26 02:40
本发明专利技术公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF-IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明专利技术能有效提高热点事件发现的效率和准确率。

【技术实现步骤摘要】

本专利技术涉及文本挖掘
,特别涉及。
技术介绍
网络的发展,为民众抒发内心的情绪和态度提供了一个理想的表达渠道,人们可以根据新闻来发表自己的观点和意见。热点事件是指在一段时间、一定区域范围引起人们极大关注的事件,也即吸引公众一定注意力的公众事件。突发事件是网络热点事件中相当重要的一个部分。突发事件是指突然形成、造成巨大的财物损失、大量的人员伤亡以及对人们的日常生活造成严重影响的事件。政府部门需要随时对网络的突发舆情信息进行严密的监控,希望可以实时把握和跟踪最新的社会热点,并判断其是否对人们的生活造成了影响。 对于现实出现的各种网络热点事件和相关的网络评论,社会管理者和有关的政府部门必须有能力及时做出反应,防患于未然,防微杜渐,这就需要及时地对网络热点事件进行监控、跟踪和处理。 文本分类是指在给定分类体系下,根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别,其中的关键技术包括文本预处理、特征提取、分类模型等。将物理或抽象对象的集合分成由类似对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。话题发现与跟踪技术是一项针对新闻信息进行话题的提取和后续跟踪的信息处理技术。 热点事件发现是要发现某个以前未知的热点话题,它实际上是一个聚类过程,聚类形成的每个簇都表示一个话题,话题可以通过不同的聚类方法来发现。不过,单纯通过聚类发现热点事件,存在准确率不高和效率低下的问题。而本专利技术能够很好地解决上面的问题。
技术实现思路
本专利技术目的在于提供,该方法用于解决传统的单一基于聚类的热点事件发现方法中存在的聚类方法效率和准确率有待进一步提闻的问题。 本专利技术解决其技术问题所采取的技术方案是:本专利技术将文本分类应用于热点事件发现中,提出采用先分类再聚类的方法来解决聚类方法存在的一些缺点。本专利技术采用的方法是先对网络文本进行分类,之后再针对各个类别的文本集分别利用热点发现系统进行处理,从而发现热点事件。本专利技术基于的原理是:一个热点事件相关联的若干数量的文本,包含一定数量的相同特征词,在文本类别属性上也应该是相同的。 方法流程: 本专利技术提出一种基于文本分类和聚类技术的网络热点发现方法,该方法是利用KNN分类方法对测试集中的文本进行分类,再利用文本分类结果,分别对各个类别的所有文本进行聚类分析,之后再进行相关统计,进而发现热点事件,该方法包括如下步骤: 步骤1:利用KNN分类方法对测试文本进行分类; 步骤1-1:构建训练语料库(即DTrain)和测试语料库(即DTest),利用训练语料库提取特征词并进行特征选择。训练集可以采用网上发布的已有的中文语料库,测试样本可以从BBS论坛、门户网站新闻版面获取,可利用网页采集模块在互联网上搜索和下载所需的网页,通过网页清洗模块对已下载文档中的广告等干扰信息进行处理,并利用HTMLParser技术对网页中的主体内容进行抽取,完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理,得到特征词,再基于X 2特征评价函数进行特征选择,为训练集中各类别文本分别选取一定数量的特征词; 步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF-1DF的方法确定向量中每一维的权重; 步骤1-3:对测试集(即DTest)中的每个测试文本X,按余弦距离法在训练集(即DTrain)中找到它的K-最近邻子集(X1, - ,Xj ; 步骤1-4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重: Pj (^) = Σ /0 (xi Xi) /=1 其中,Uj(Xi) e {0,1}含义为测试文本的近邻文本Xi是否属于Cj Aimaxi)表示测试文本与训练文本Xi的余弦相似度。决策方法为:如果U1(X) = maxy j(X),则决策X e C1,即类别权重最大的作为测试文本的所属类别。最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备; 步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,具体步骤为: 步骤2-1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇。对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤: 步骤1:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心; 步骤2:计算该类别中的每个文本对象与各个簇中心的距离,并把划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心; 步骤3:重复上述步骤2,直到该类别所有测试文本对象\的簇不再变化为止,这样就得到了 k个热点簇C1, C2,…,ck。对测试集中每个类别分别得到若干热点簇; 步骤2-2:热点特征词提取:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征,这样可以更加明确热点事件,也便于之后的热点事件的分析和描述; 步骤2-3:热点事件分析:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述。权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但可以从侧面为热点提供一定的附加信息。 有益效果: 1、本专利技术解决了已有的基于聚类分析的热点事件发现方法存在的时空复杂度高和热点事件发现准确率较低等问题,提高了热点事件发现的效率和准确率。 2、本专利技术减少了聚类方法的时空复杂度。 3、本专利技术能够有效地提取特征词,也便于文本降维,减少了不同类别热点事件之间的影响,从而提高了热点事件发现的成功率。 【附图说明】 图1为本专利技术基于文本分类和聚类分析的网络热点事件发现方法的流程图。 【具体实施方式】 以下结合说明书附图对本专利技术创造作进一步的详细说明。 如图1所示,本专利技术提出一种基于文本分类和聚类技术的网络热点发现方法,该方法包括如下步骤: [0031 ] 步骤1:利用KNN分类方法对测试文本进行分类; 步骤1-1:构建训练语料库(即DTrain)和测试语料库(即DTest),利用训练语料库提取特征词并进行特征选择。训练集采用网上发布的已有的中文语料库,测试样本可以从BBS论坛、门户网站新闻版面获取,利用网页采集模块在互联网上搜索和下载所需的网页,通过网页清洗模块对已下载文档中的广告等干扰信息进行处理,并利用HTMLParser技术对网页中的主体内容进行抽取,完成网页文本信息的前期处理工作。对文本再做分词、去除停用词等处理,得到特征词,再基于X 2特征评价函数进行特征选择,为训练集中各类别文本分别选取一定数量的特征词; 步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征本文档来自技高网
...
一种基于文本分类和聚类分析的网络热点事件发现方法

【技术保护点】
一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法包括如下步骤:步骤1:利用KNN分类方法对测试文本进行分类,包括:步骤1‑1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择;步骤1‑2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF‑IDF的方法确定向量中每一维的权重;步骤1‑3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K‑最近邻子集{X1,…,Xk};步骤1‑4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:μj(X)=Σi=1kμj(Xi)sim(X,Xi)]]>其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度;决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括:步骤2‑1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K‑means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:第一步:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;第二步:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;第三步:重复上述第二步,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了k个热点簇C1,C2,…,Ck;对测试集中每个类别分别得到若干热点簇;步骤2‑2:热点特征词提取;根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征;步骤2‑3:热点事件分析;利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述;权值排序倒数20%的特征词也有价值,从侧面为热点提供附加信息。...

【技术特征摘要】
1.一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法包括如下步骤: 步骤1:利用KNN分类方法对测试文本进行分类,包括: 步骤1-1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择; 步骤1-2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF-1DF的方法确定向量中每一维的权重; 步骤1-3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K-最近邻子集(X1, - ,XJ ; 步骤1-4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重: i=\ 其中,Uj(Xi) e {0,1}含义为测试文本的近邻文本Xi是否属于Cysimaxi)表示测试文本与训练文本Xi的余弦相似度;决策方法为:如果μ: (X) = max μ j⑴,则决策X e C1,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备; 步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括: 步骤2-1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K-means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文...

【专利技术属性】
技术研发人员:成卫青范恒亮卢艳红
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1