一种基于假设检验的舆情主题数识别方法及系统技术方案

技术编号:17796949 阅读:22 留言:0更新日期:2018-04-25 20:27
本发明专利技术涉及一种基于假设检验的舆情主题数识别方法及系统。通过构建词项‑文本矩阵,对于网络海量文本,计算词频、逆文档频率,得到计算词项‑文本矩阵;计算词项‑文本矩阵的协方差矩阵和自相关矩阵,并求解其特征值;将舆情主题数求解问题转化为二元假设检验问题,当假设为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,主题数加1;根据此假设检验,求解得到舆情主题数。本方法能够解决目前对于网络舆情主题数目难以自动估计,需要人工调整的问题。

A method and system for identifying topic number of public opinion based on hypothesis testing

The invention relates to a recognition method and system of public opinion topic number based on hypothesis testing. By constructing the text matrix, the text matrix is obtained for the computation word frequency and the inverse document frequency for the mass text of the network. The covariance matrix and the autocorrelation matrix of the text matrix are calculated and its eigenvalues are calculated. The problem of the topic number solution of the public opinion is converted to the two element hypothesis test problem, when the hypothesis is assumed. In addition to the truth, it is shown that besides the noise, there is a signal source acting on the eigenvalues of the correlation matrix, that is to say, there are other public opinion themes, and the number of subjects plus 1; the number of public opinion topics is obtained by this hypothesis test. This method can solve the problem that it is difficult to automatically estimate the number of subjects of Internet public opinion and need manual adjustment.

【技术实现步骤摘要】
一种基于假设检验的舆情主题数识别方法及系统
本专利技术涉及人工智能领域,具体涉及一种基于假设检验的舆情主题数识别方法及系统。
技术介绍
网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研究的热点。在海量文本信息中提出若干需要的主题是对自然语言文档处理的重要问题,如何确定主题数得到正确的分类,一直是开发人员、应用人员和管理人员所面临的首要问题。准确的主题数是自然语言文档正确分类的关键。主题数过大或过小都会导致分类的不准确。通常的做法是在降维过程中缩减保留奇异值数目,使得保留的奇异值的平方和达到所有奇异值平方和的90%。但这是从矩阵能量角度进行分析,并不十分准确有效。本专利技术根据网络文本数据特点,提出利用基于假设检验的方法来解决这一问题。
技术实现思路
本专利技术提出了一种基于假设检验的网络舆情主题数识别技术,能够解决目前对于网络舆情主题数目难以自动估计,需要人工调整的问题。本专利技术的一个目的是提供了一种舆情主题数识别方法,包括以下步骤:(a)构建词项文档矩阵A并计算其TF-IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字或文档数;(b)求得第l个文档的近似噪声方差值其中N表示矩阵中元素的个数;(c)计算概率密度函数(d)给定虚警概率PF,根据虚警概率和检测率定义求得τ;(e)基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。其中,构建词项文档矩阵A并计算其TF-IDF值为:构建词项文档矩阵A,A中的每一个元素aij表示第i个词项与第j篇文章构成的TF-IDF值,具体计算步骤如下:S01:计算词频TermFrequencyS02:计算逆文档频率S03:计算TF-IDF:TF-IDF=词频(TF)*逆文档频率(IDF),词项文档矩阵A是稀疏向量组成的行矩阵,每个向量代表一个文档。进一步的,通过以下公式计算词项文档矩阵A的协方差矩阵K和自相关矩阵R:K=E{(A-E(A))(A-E(A))T}R=E{AAT}其中,E表示求数学期望,AT表示求A转置。设噪声是均值为零的白噪声,确定主题数个数的问题归结为二元假设检验问题:当假设H1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,即还有其它舆情主题存在,主题数加1。将与λ1的差值看作是基于H0和H1的条件概率分布,相应的条件概率密度函数为:其中μl为未知常量,定义虚警率PF和检测率PD分别为:PF=∫τp0(z)dz,PD=∫τp1(z)dz。给定虚警概率PF,根据虚警率和检测率定义由以下公式求得τ:本专利技术的另一个目的是提供一种舆情主题数识别系统,系统包括以下模块:文档重构模块,用于构建词项文档矩阵A并计算其TF-IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字或文档数;二元假设检验模块,用于求得第l个文档的近似噪声方差值其中N表示矩阵中元素的个数;计算概率密度函数给定虚警概率PF,根据虚警概率和检测率定义求得τ;舆情主题数识别模块,用于基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。本专利技术提出的基于假设检验的舆情主题数识别技术,通过对网络文本构建词项-文档矩阵、特征值分解与提取、二元假设检验计算,最终实现网络话题数目的计算。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下对本专利技术进行进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的一个实施例中的基于假设检验的舆情主题数识别方法,将稀疏矩阵分解和主题模型相结合,主要分为构建词项-文档矩阵、特征值分解、二元假设检验三个步骤,具体包括:构建词项-文档矩阵(termfrequencytimesinversedocumentfrequency,TF-IDF),在该矩阵中,每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于这篇文章来说的重要程度;计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵和自相关矩阵的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字/文档数;求得第l个文档的近似噪声方差值其中N表示矩阵中元素的个数;计算概率密度函数给定虚警概率PF,根据虚警率和检测率定义求得τ;基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字/文档都进行这样的检测判断,最后得出信号源的总数即为VD的值,也就是舆情主题数。具体地,首先构建词项-文档矩阵A,A中的每一个元素aij表示第i个词项与第j篇文章构成的ti-idf值,具体计算步骤如下:S01:计算词频TermFrequencyS02:计算逆文档频率S03:计算TF-IDF:TF-IDF=词频(TF)*逆文档频率(IDF)由于词项的数目非常之大,而文档数目远远小于词项,所以词项-文档矩阵应该是一个稀疏向量组成的行矩阵,每个向量代表一个文档。对词项-文档矩阵A的协方差矩阵K及自相关矩阵R分别进行特征值分解,得到特征值分别为{λ1≥λ2≥…≥λL}和L表示关键字/文档的数目。其中,计算协方差矩阵K和自相关矩阵R的公式如下:K=E{(A-E(A))(A-E(A))T}R=E{AAT}其中,E表示求数学期望,AT表示求A转置。设噪声是均值为零的白噪声,确定主题数个数的问题可以归结为一个二元假设检验问题:当假设H1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,因此主题数加1。将与λ1的差值看作是基于H0和H1的条件概率分布,相应的条件概率密度函数为:其中μl为未知常量。定义虚警率PF和检测率PD分别为:PF=∫τp0(z)dzPD=∫τp1(z)dz据此方程定义,给定虚警概率PF,根据虚警率和检测率定义求得τ,具体求解过程如下。基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字/文档都进行这样的检测判断,最后得出信号源的总数即为VD的值,同时也就是舆情主题的数目。本专利技术的另一个实施例中的基于假设检验的舆情主题数识别方法,主要包括以下几个步骤:第一步:构建词项-文本矩阵。对于网络海量文本,计算词频、逆文档频率,得到计算词项-文本矩阵。第二步:计算词项-文本矩阵的协方差矩阵和自相关矩阵,并求解其特征值,分别为{λ1≥λ2≥…≥λL}和第三步:将舆情主题数求解问题转化为二元假设检验问题,当假设H1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,因此主题数加1。第四步:根据此假设检验,求解得到舆情主题数。本专利技术的另一个实施例中的基于假设检验的舆情主题数识别系统,系统包括以下模块:文档重构模块,用于构建词项文档矩阵A并计算其TF-IDF值,计算该矩本文档来自技高网...

【技术保护点】
一种舆情主题数识别方法,其特征在于,包括以下步骤:(a)构建词项文档矩阵A并计算其TF‑IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和

【技术特征摘要】
1.一种舆情主题数识别方法,其特征在于,包括以下步骤:(a)构建词项文档矩阵A并计算其TF-IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字或文档数;(b)求得第1个文档的近似噪声方差值其中N表示矩阵中元素的个数;(c)计算概率密度函数(d)给定虚警概率PF,根据虚警概率和检测率定义求得τ;(e)基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。2.根据权利要求1所述的舆情主题数识别方法,其特征在于,构建词项文档矩阵A并计算其TF-IDF值为:构建词项文档矩阵A,A中的每一个元素aij表示第i个词项与第j篇文章构成的TF-IDF值,具体计算步骤如下:S01:计算词频TermFrequencyS02:计算逆文档频率S03:计算TF-IDF:TF-IDF=词频(TF)*逆文档频率(IDF),词项文档矩阵A是稀疏向量组成的行矩阵,每个向量代表一个文档。3.根据权利要求1所述的舆情主题数识别方法,其特征在于,通过以下公式计算词项文档矩阵A的协方差矩阵K和自相关矩阵R:K=E{(A-E(A))(A-E(A))T}R=E{AAT}其中,E表示求数学期望,AT表示求A转置。4.根据权利要求1所述的舆情主题数识别方法,其特征在于,设噪声是均值为零的白噪声,确定主题数个数的问题归结为二元假设检验问题:当假设H1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,即还有其它舆情主题存在,主题数加1。5.根据权利要求4所述的舆情主题数识别方法,其特征在于,将与λ1的差值看作是基于H0和H1的条件概率分布,相应的条件概率密度函数为:其中μl为未知常量,定义虚警率PF和检测率PD分别为:PF=∫τp0(z)dz,PD=∫τp1(z)dz。6.根据权利要求5所述的舆情主题数识别方法,其特征在于,给定虚警概率PF,根据虚警率和检测率定义由以下公式求得τ:7.一种舆情主题数识别系统,其特征在于,包括以下模块:文档重构模块,...

【专利技术属性】
技术研发人员:安振宇孙亭李毅丁杰叶云徐斌
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1