The invention relates to a recognition method and system of public opinion topic number based on hypothesis testing. By constructing the text matrix, the text matrix is obtained for the computation word frequency and the inverse document frequency for the mass text of the network. The covariance matrix and the autocorrelation matrix of the text matrix are calculated and its eigenvalues are calculated. The problem of the topic number solution of the public opinion is converted to the two element hypothesis test problem, when the hypothesis is assumed. In addition to the truth, it is shown that besides the noise, there is a signal source acting on the eigenvalues of the correlation matrix, that is to say, there are other public opinion themes, and the number of subjects plus 1; the number of public opinion topics is obtained by this hypothesis test. This method can solve the problem that it is difficult to automatically estimate the number of subjects of Internet public opinion and need manual adjustment.
【技术实现步骤摘要】
一种基于假设检验的舆情主题数识别方法及系统
本专利技术涉及人工智能领域,具体涉及一种基于假设检验的舆情主题数识别方法及系统。
技术介绍
网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研究的热点。在海量文本信息中提出若干需要的主题是对自然语言文档处理的重要问题,如何确定主题数得到正确的分类,一直是开发人员、应用人员和管理人员所面临的首要问题。准确的主题数是自然语言文档正确分类的关键。主题数过大或过小都会导致分类的不准确。通常的做法是在降维过程中缩减保留奇异值数目,使得保留的奇异值的平方和达到所有奇异值平方和的90%。但这是从矩阵能量角度进行分析,并不十分准确有效。本专利技术根据网络文本数据特点,提出利用基于假设检验的方法来解决这一问题。
技术实现思路
本专利技术提出了一种基于假设检验的网络舆情主题数识别技术,能够解决目前对于网络舆情主题数目难以自动估计,需要人工调整的问题。本专利技术的一个目的是提供了一种舆情主题数识别方法,包括以下步骤:(a)构建词项文档矩阵A并计算其TF-IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字或文档数;(b)求得第l个文档的近似噪声方差值其中N表示矩阵中元素的个数;(c)计算概率密度函数(d)给定虚警概率PF,根据虚警概率和检测率定义求得τ;(e)基于Neym ...
【技术保护点】
一种舆情主题数识别方法,其特征在于,包括以下步骤:(a)构建词项文档矩阵A并计算其TF‑IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和
【技术特征摘要】
1.一种舆情主题数识别方法,其特征在于,包括以下步骤:(a)构建词项文档矩阵A并计算其TF-IDF值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵K和自相关矩阵R的特征值集合,记为{λ1≥λ2≥…≥λL}和其中L为关键字或文档数;(b)求得第1个文档的近似噪声方差值其中N表示矩阵中元素的个数;(c)计算概率密度函数(d)给定虚警概率PF,根据虚警概率和检测率定义求得τ;(e)基于Neyman-Pearson理论,当时表明有信号源的存在,对L个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。2.根据权利要求1所述的舆情主题数识别方法,其特征在于,构建词项文档矩阵A并计算其TF-IDF值为:构建词项文档矩阵A,A中的每一个元素aij表示第i个词项与第j篇文章构成的TF-IDF值,具体计算步骤如下:S01:计算词频TermFrequencyS02:计算逆文档频率S03:计算TF-IDF:TF-IDF=词频(TF)*逆文档频率(IDF),词项文档矩阵A是稀疏向量组成的行矩阵,每个向量代表一个文档。3.根据权利要求1所述的舆情主题数识别方法,其特征在于,通过以下公式计算词项文档矩阵A的协方差矩阵K和自相关矩阵R:K=E{(A-E(A))(A-E(A))T}R=E{AAT}其中,E表示求数学期望,AT表示求A转置。4.根据权利要求1所述的舆情主题数识别方法,其特征在于,设噪声是均值为零的白噪声,确定主题数个数的问题归结为二元假设检验问题:当假设H1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,即还有其它舆情主题存在,主题数加1。5.根据权利要求4所述的舆情主题数识别方法,其特征在于,将与λ1的差值看作是基于H0和H1的条件概率分布,相应的条件概率密度函数为:其中μl为未知常量,定义虚警率PF和检测率PD分别为:PF=∫τp0(z)dz,PD=∫τp1(z)dz。6.根据权利要求5所述的舆情主题数识别方法,其特征在于,给定虚警概率PF,根据虚警率和检测率定义由以下公式求得τ:7.一种舆情主题数识别系统,其特征在于,包括以下模块:文档重构模块,...
【专利技术属性】
技术研发人员:安振宇,孙亭,李毅,丁杰,叶云,徐斌,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。