面向多源信息的混合文本话题发现方法技术

技术编号：22166900 阅读：25 留言：0更新日期：2019-09-21 10:34

本发明专利技术涉及话题发现领域，特别涉及一种面向多源信息的混合文本话题发现方法。本发明专利技术具体包括以下步骤：步骤一、对原始数据进行特征融合，得到特征均匀的结果集D；步骤二、对步骤一中得到特征均匀的结果集D，基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明专利技术能够将文本向量特征不均匀的多源文本数据均匀化；通过DMM模型，提升对高噪声、低信息量的短文本数据的话题检测效果；能自动识别出聚类的类别个数，不需要事先给定簇的个数。

Hybrid Text Topic Discovery Method for Multi-source Information

全部详细技术资料下载

【技术实现步骤摘要】
面向多源信息的混合文本话题发现方法
本专利技术涉及话题发现领域，特别涉及一种面向多源信息的混合文本话题发现方法。
技术介绍
随着信息技术的广泛应用和网络空间的蓬勃发展，网络空间安全问题已成为社会热点。其中，利用话题发现技术掌握民意的走向，对于网络空间安全的治理起着至关重要的作用。有时舆情监管者需要进行热门话题检测的信息源可能来自多种类别，比如一个文本集中既有新闻网站的信息，也有网络社区和社交媒体的信息。由于文本集混杂着不同信息源的文本，所以文本的长度之间有很大的差异性。对这类文本进行多源文本集合的话题检测时，由于新闻网站类信息源的信息和其余两类信息源的信息特点差异较大，就造成了文本向量特征不均匀的现象。面向多源信息的混合文本由于其信息源的多样性，导致文本特征不均匀。近年来的研究中，对于特征分布均匀的文本进行话题聚类的研究较多，而文本向量特征不均匀的问题一直是聚类算法的一个难题。若使用现有的针对特征均匀文本的话题聚类方法，来对特征分布不均匀的文本进行话题聚类，则聚类结果容易被篇幅较长的某个文本所主导话题，短文本的特征将被长文本的特征所稀释，最终话题聚类的结果具有很大的不稳定性。所以使用单独的某个聚类方法来进行文本向量特征不均匀的文本信息话题检测，准确度会很低。话题检测及追踪(TopicDetectionandTracking，TDT)的概念最早由美国国防高级研究计划局(DefenseAdvancedResearchProjectsAgency，DARPA)提出，目标是能在没有人工干预的情况下自动判断新闻数据流的主题。自此之后，该领域进行了多次大规模评测，为信...

【技术保护点】
1.一种面向多源信息的混合文本话题发现方法，其特征在于，具体包括以下步骤：步骤一、对原始数据进行特征融合，得到特征均匀的结果集D；步骤二、对步骤一中得到特征均匀的结果集D，基于狄利克雷多项式混合模型的聚类方法进行聚类。

【技术特征摘要】
1.一种面向多源信息的混合文本话题发现方法，其特征在于，具体包括以下步骤：步骤一、对原始数据进行特征融合，得到特征均匀的结果集D；步骤二、对步骤一中得到特征均匀的结果集D，基于狄利克雷多项式混合模型的聚类方法进行聚类。2.如权利要求1所述的一种面向多源信息的混合文本话题发现方法，其特征在于，所述步骤一中，对原始数据进行特征融合，具体包括以下子步骤：步骤1.1定义长文本和短文本；步骤1.2对每一个长文本，基于TextRank算法对长文本进行摘要提取；步骤1.3对每一个短文本，基于哈工大同义词词林来对短文本进行同义词拓展。3.如权利要求2所述的一种面向多源信息的混合文本话题发现方法，其特征在于，所述步骤二中，具体包括以下子步骤：2.1初始化，设置α、β、K的值，将所有文档划分为K个簇，对每一个簇z，初始化mz，nz，nz(w)计数为0，其中mz表示簇z中所有文档的总数目，nz代表在簇z中所有文档内所有词语的个数，nz(w)表示词语w在簇z中出现的总次数；2.2对于结果集D中每一篇文档d，随机为所有文档d初始化一个簇，对于加入的簇，每加入一个文档，将mz的计数加1，将nz的计数加Nd，Nd表示文档d中所有词语的个数，对每一个单词，nz(w)的计数加Nd(w)，Nd(w)为文档d中，词语w的个数；2.3每篇文档d的重新分配，依次对于每一个簇中的每一篇文档d重新分配，且通过坍塌吉布斯采样算法进行重新分配，通过坍塌吉布斯采样算法，得到概率分布；2.4根据所求得的概率分布，最终每个文本被分配给一个特定的簇，即每个文本属于一个话题，那么第z个簇中w词语出现的概率为：其中nz(w)表示词语w在簇z中出现的总次数；φz(w)可以理解为词语w对于簇z的重要程度，根据φz(w)的次序可以得到每个簇的代表词。4.如权利要求3所述的一种面向多源信息的混合文本话题发现方法，其特征在于，所述步骤1.2，具体包括以下子步骤：1.2.a)预处理，将长文本内容按标点符号分割成句子，形成句子集V，对每个句子进行分词、去除停用词操作；1.2.b)句子间相似度计算，基于句子间的相似度，构建边集E，通过句子集V和边集E构建出图G，G＝(V，E)；每个句子Si可以表示为Ni个词语的集合，即给定两个句子Si，Sj采用如下公式计算两个句子间的相似度wij：公式中，分子的意义是同时出现在两个句子中的词语的个数，|Si|表示句子Si中词语的个数，|Sj|表示句子Sj中词语的个数；如果两个句子之间的相似度大于某个设定的阈值，就认定这两个句子语义关联并将它们在图G中连接起来，wij作为边的权值；1.2.c)基于该句子对相邻句子的贡献程度对句子重要程度计算；根据Text...

【专利技术属性】
技术研发人员：吴旭，颉夏青，王昕喆，许晋，方滨兴，陆月明，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人