面向多源信息的混合文本话题发现方法技术

技术编号:22166900 阅读:25 留言:0更新日期:2019-09-21 10:34
本发明专利技术涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明专利技术具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明专利技术能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。

Hybrid Text Topic Discovery Method for Multi-source Information

【技术实现步骤摘要】
面向多源信息的混合文本话题发现方法
本专利技术涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。
技术介绍
随着信息技术的广泛应用和网络空间的蓬勃发展,网络空间安全问题已成为社会热点。其中,利用话题发现技术掌握民意的走向,对于网络空间安全的治理起着至关重要的作用。有时舆情监管者需要进行热门话题检测的信息源可能来自多种类别,比如一个文本集中既有新闻网站的信息,也有网络社区和社交媒体的信息。由于文本集混杂着不同信息源的文本,所以文本的长度之间有很大的差异性。对这类文本进行多源文本集合的话题检测时,由于新闻网站类信息源的信息和其余两类信息源的信息特点差异较大,就造成了文本向量特征不均匀的现象。面向多源信息的混合文本由于其信息源的多样性,导致文本特征不均匀。近年来的研究中,对于特征分布均匀的文本进行话题聚类的研究较多,而文本向量特征不均匀的问题一直是聚类算法的一个难题。若使用现有的针对特征均匀文本的话题聚类方法,来对特征分布不均匀的文本进行话题聚类,则聚类结果容易被篇幅较长的某个文本所主导话题,短文本的特征将被长文本的特征所稀释,最终话题聚类的结果具有很大的不稳定性。所以使用单独的某个聚类方法来进行文本向量特征不均匀的文本信息话题检测,准确度会很低。话题检测及追踪(TopicDetectionandTracking,TDT)的概念最早由美国国防高级研究计划局(DefenseAdvancedResearchProjectsAgency,DARPA)提出,目标是能在没有人工干预的情况下自动判断新闻数据流的主题。自此之后,该领域进行了多次大规模评测,为信息识别、采集和组织等相关技术提供了新的技术支持。目前,国内外关于文本的话题检测研究已经取得了一定的进展,这些话题检测方法主要分为两类,一类是针对新闻网站信息源信息文本的话题检测研究,另一类是针对网络社区和社交媒体信息源中的用户原创内容(UserGeneratedContent,UGC)的话题检测研究。针对新闻网站信息源信息的话题检测,在国际上,宾夕法尼亚州立大学的三人于2010年提出一种用于寻找更好的初始种子的改进K-Means算法的聚类算法,用于进行新闻信息的话题检测。基于此算法的新闻信息聚类结果较传统的K-Means算法而言,具有更高的准确度和稳定性。在国内,李琮,袁方,刘宇等人于2016年提出了一种基于LDA模型的中文新闻话题检测方法,该方法能快速有效的实现新闻聚类。针对网络社区和社交媒体信息源信息的话题检测,在国际上,南加利福尼亚大学的VivekKumarRangarajanSridhar于2015年提出了一种基于高斯混合模型(GaussianMixtureModel,GMM)的针对短文本的无监督主题模型,并且通过实验,证明了该模型在进行短文本聚类时要优于LDA模型。在国内,黄健翀、邓玫玲等人于2017年提出了一种基于LSTM自动编码机的短文本聚类方法,该方法更着重于匹配整体的文档结构,得到的聚类结果句子间的结构相似度较高。上述研究工作对热门话题检测都有着巨大的贡献,但是还存在着很多不足。主要体现在,上述研究工作都是针对文本特征均匀的数据进行热门话题检测,但是对于多信息源文本的热门话题检测,存在着很大的局限性。主要表现在以下几个方面:需要预先设定聚类结果簇的数目,并且聚类结果的好坏与预先设定的值有很大的关系;多信息源的文本特征不均匀,聚类效果不理想;处理海量数据时的效率较低。
技术实现思路
本专利技术要解决的技术问题是提供一种面向多源信息的混合文本话题发现方法,该方法基于狄利克雷多项式混合模型(DirichletMultinomialMixturemodel,DMM)的多源文本聚类方法。通过考虑不同数据源文本数据的特征差异,基于TextRank算法进行多源文本数据的特征融合,并利用DMM模型处理特征融合后文本的稀疏和高维度的问题。实验结果表明,该方法显著提高了多源文本聚类的效果,有效地解决了多源文本的特征不均匀问题与特征融合后文本特征的高维、稀疏问题。对网络空间安全的治理提供了决策支持,对社会的稳定发展做出了贡献。为了解决上述技术问题,本专利技术提供一种面向多源信息的混合文本话题发现方法,具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。所述步骤一中,对原始数据进行特征融合,具体包括以下子步骤:步骤1.1定义长文本和短文本;步骤1.2对每一个长文本,基于TextRank算法对长文本进行摘要提取;步骤1.3对短文本,基于哈工大同义词词林来对短文本进行同义词拓展。所述步骤二中,具体包括以下子步骤:2.1初始化,对每一个簇z,初始化mz,nz,nz(w)计数为0,其中mz簇z中所有文档的总数目,nz代表在簇z中所有文档内所有词语的个数,nz(w)表示词语w在簇z中出现的总次数,设置α、β、K的值;2.2对于结果集D中每一篇文档d,随机为所有文档d初始化一个簇,对于加入的簇,每加入一个文档,将mz的计数加1,将nz的计数加Nd,Nd文档d中所有词语的个数,对每一个单词,nz(w)的计数加Nd(w),Nd(w)为文档d中,词语w的个数;2.3每篇文档d的重新分配,依次对于每一个簇中的每一篇文档d重新分配,且通过坍塌吉布斯采样算法进行重新分配,通过坍塌吉布斯采样算法,得到概率分布;2.4根据所求得的概率分布,最终每个文本被分配给一个特定的簇,即每个文本属于一个话题,那么第z个簇中w词语出现的概率为:其中nz(w)表示词语w在簇z中出现的总次数;φz(w)可以理解为词语w对于簇z的重要程度,根据φz(w)的次序可以得到每个簇的代表词。所述步骤1.2,具体包括以下子步骤:1.2.a)预处理,将长文本内容按标点符号分割成句子,形成句子集V,对每个句子进行分词、去除停用词操作;1.2.b)句子间相似度计算,基于句子间的相似度,构建边集E,通过句子集V和边集E构建出图G,G=(V,E);每个句子Si可以表示为Ni个词语的集合,即给定两个句子Si,Sj采用如下公式计算两个句子间的相似度wij:公式中,分子的意义是同时出现在两个句子中的词语的个数,|Si|表示句子Si中词语的个数,|Sj|表示句子Sj中词语的个数;如果两个句子之间的相似度大于某个设定的阈值,就可以认定这两个句子语义关联并将它们在图G中连接起来,wij作为边的权值;1.2.c)基于该句子对相邻句子的贡献程度对句子重要程度计算;根据TextRank算法的计算公式,句子的权重WS(Vi)可以迭代表示为:其中,d是阻尼系数,Vi表示句子集中的句子,In(Vi)代表在图G中指向句子Vi的所有句子的集合,Out(Vj)代表在图G中句子Vj指向的所有句子的集合,wij代表由句子Si和Sj所连接的边的权值,wjk代表由句子Sj和Sk所连接的边的权值;根据上述公式,迭代传播计算各个句子节点的权值;1.2.d)选取候选摘要句:对1.2.c)中的句子权值进行倒序排序,选取权值最高的前N个句子作为候选摘要句。1.2.e)形成摘要,根据设置的字数或句子数要求,从候选摘要句中选择句子组成摘要;输入的长文本经过上述过程后,本文档来自技高网
...

【技术保护点】
1.一种面向多源信息的混合文本话题发现方法,其特征在于,具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。

【技术特征摘要】
1.一种面向多源信息的混合文本话题发现方法,其特征在于,具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。2.如权利要求1所述的一种面向多源信息的混合文本话题发现方法,其特征在于,所述步骤一中,对原始数据进行特征融合,具体包括以下子步骤:步骤1.1定义长文本和短文本;步骤1.2对每一个长文本,基于TextRank算法对长文本进行摘要提取;步骤1.3对每一个短文本,基于哈工大同义词词林来对短文本进行同义词拓展。3.如权利要求2所述的一种面向多源信息的混合文本话题发现方法,其特征在于,所述步骤二中,具体包括以下子步骤:2.1初始化,设置α、β、K的值,将所有文档划分为K个簇,对每一个簇z,初始化mz,nz,nz(w)计数为0,其中mz表示簇z中所有文档的总数目,nz代表在簇z中所有文档内所有词语的个数,nz(w)表示词语w在簇z中出现的总次数;2.2对于结果集D中每一篇文档d,随机为所有文档d初始化一个簇,对于加入的簇,每加入一个文档,将mz的计数加1,将nz的计数加Nd,Nd表示文档d中所有词语的个数,对每一个单词,nz(w)的计数加Nd(w),Nd(w)为文档d中,词语w的个数;2.3每篇文档d的重新分配,依次对于每一个簇中的每一篇文档d重新分配,且通过坍塌吉布斯采样算法进行重新分配,通过坍塌吉布斯采样算法,得到概率分布;2.4根据所求得的概率分布,最终每个文本被分配给一个特定的簇,即每个文本属于一个话题,那么第z个簇中w词语出现的概率为:其中nz(w)表示词语w在簇z中出现的总次数;φz(w)可以理解为词语w对于簇z的重要程度,根据φz(w)的次序可以得到每个簇的代表词。4.如权利要求3所述的一种面向多源信息的混合文本话题发现方法,其特征在于,所述步骤1.2,具体包括以下子步骤:1.2.a)预处理,将长文本内容按标点符号分割成句子,形成句子集V,对每个句子进行分词、去除停用词操作;1.2.b)句子间相似度计算,基于句子间的相似度,构建边集E,通过句子集V和边集E构建出图G,G=(V,E);每个句子Si可以表示为Ni个词语的集合,即给定两个句子Si,Sj采用如下公式计算两个句子间的相似度wij:公式中,分子的意义是同时出现在两个句子中的词语的个数,|Si|表示句子Si中词语的个数,|Sj|表示句子Sj中词语的个数;如果两个句子之间的相似度大于某个设定的阈值,就认定这两个句子语义关联并将它们在图G中连接起来,wij作为边的权值;1.2.c)基于该句子对相邻句子的贡献程度对句子重要程度计算;根据Text...

【专利技术属性】
技术研发人员:吴旭颉夏青王昕喆许晋方滨兴陆月明
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1