当前位置: 首页 > 专利查询>王帅专利>正文

面向长文本的主题检测方法技术

技术编号:23343527 阅读:68 留言:0更新日期:2020-02-15 03:56
本发明专利技术公开一种面向长文本的主题检测方法,包括以下步骤:1)对长文本进行结构化处理和文本数据抽象,计算Word2vec&TF‑IDF词向量;进行LDA建模,构成文本‑主题分布,利用Skip‑Gram模型来训练语料库,计算其特征向量,在此基础上计算长文本数据的词向量与特征向量的余弦距离进行加权叠加,得出文本相似度。2)以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块采用Single‑Pass进行聚类分析,再通过HAC进行话题合并,得出最终结果。该方法通过LDA提取文本特征词隐含的主题,Word2vec映射特征词向量,再将二者进行加权融合,引入时间窗口和凝聚式层次聚类,通过Single‑Pass&HAC对长文本主题进行了完整的提取,输出结果准确度高。

Topic detection method for long text

【技术实现步骤摘要】
面向长文本的主题检测方法
本专利技术涉及网络长文本的数据挖掘
,特别是涉及一种面向长文本的主题检测方法。
技术介绍
随着近年来互联网技术的飞速发展,网络长文本信息呈现爆炸式的增长,而长文本信息中一般存在着大量冗余文本数据,其表示又存在着忽略潜在语义和高维稀疏性的问题。同时,网络事件本身还具有快速传播性和突发性,为了帮助用户快速得出长文本的主题信息,对长文本的主题检测方法研究设计具有重要的现实意义。本方法对长文本进行结构化处理和文本数据抽象,构成文本-主题分布,利用Skip-Gram模型来训练语料库。计算长文本数据的词向量与特征向量的余弦距离,两者相乘相加,计算文本相似度;以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,从而实现了对长文本主题的完整提取。
技术实现思路
为解决上述问题,本专利技术提供了一种面向长文本的主题检测方法,其通过LDA提取文本特征词隐含的主题,Word2v本文档来自技高网...

【技术保护点】
1.一种面向长文本的主题检测方法,其特征在于包括如下步骤:/n1)建立VSM模型,用Q={q

【技术特征摘要】
1.一种面向长文本的主题检测方法,其特征在于包括如下步骤:
1)建立VSM模型,用Q={q1,q2,...,qn,...,qN}表示长文本数据,用Z={z1,z2,...,zn,...,zN}表示其特征词,用Di={(wi1,z1),(wi2,z2),...,(win,zn),...,(wiN,zN)}表示所有文档,用wiN表示第i篇长文本的特征词的权重,采用词频--反文档频率权重法对权重进行计算,



2)将文本数据进行抽象建立贝叶斯概率模型,进行LDA建模,使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,δ共有Y个,对长文本qN随机从Dirichlet先验分布中选出相应的文档主题分布选定主题再根据主题词的Dirichlet先验分布[θβ1,θβ2,θβ3,...,θβZ]T选出相应的主题词语分布[δβ1,δβ2,δβ3,...,δβZ]T,从词库中选出词语构成文本主题分布;
3)建立Skip-Gram模型,其输入层特征词的N维输入向量为τ1,O维隐含层输出层,第k个分布上的第l个单元的净输入其中,W为复制和转置输入层到隐含层的权重矩阵τk,l表示输出层的第k个分布上的第l个特征词,τj,k表示输出上下文词中的第k个词,唯一输入词为τ1,ρk,l表示第k个分布上的第l个单元的输出,表示隐含层到输出层的权重向量,k=1,2,3,…,K;最终计算计算长文本数据的词向量与特征向量的余弦距离,两者相乘相加,计算文本相似度。
4)在Single-Pass的算法基础上融入凝聚式层次聚类,以舆情发生的时间先后顺序对长文本进行排序,划分时间窗口对其进行分块,对最初的数据块进行聚类分析,其后的各数据块在前一数据块分好类的基础上,与各分类质心进行相似度计算,选出相似度最大值,从而检测出长文本的主题。


2.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤1)建立VSM模型,用Q={q1,q2,...,qn,...,qN}表示长文本数据,用Z={z1,z2,...,zn,...,zN}表示其特征词,用Di={(wi1,z1),(wi2,z2),...,(win,zn),...,(wiN,zN)}表示所有文档,用wiN表示第i篇长文本的特征词的权重,采用词频--反文档频率权重法对权重进行计算。


3.如权利要求1所述面向长文本的主题检测方法,其特征在于:步骤2)将文本数据进行抽...

【专利技术属性】
技术研发人员:王帅
申请(专利权)人:王帅
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1