【技术实现步骤摘要】
面向专业领域的在线主题检测方法
本专利技术属于数据挖掘、自然语言处理、信息抽取和信息检索
,特别是涉及一种主题检测和跟踪技术。
技术介绍
目前在主题检测的相关技术中,常用的聚类算法主要有K均值聚类算法(K-means)和仿射传播聚类算法(AP算法)。K均值聚类算法(K-means)是最流行、最典型的基于距离的划分聚类算法。K-means算法采用距离作为相似性的评价指标,认为簇是由彼此相似的一组对象所构成的集合,因此把得到紧凑且独立的簇作为最终目标。K-means算法以随机选择的点作为初始中心点,然后根据其他点到中心点的距离,把集合中的点划分到相应类别中,直到划分达到收敛条件:划分结果的方差下降的速度很小或者迭代过程中没有重新划分的点出现。K-means算法的缺点是对初始点的选择敏感,如果初始点选择的不恰当,迭代会收敛到一个局部最优划分。因此,实际应用中,一般会多次运行,选择运行结果中最好的一次作为最终结果。另一类算法是仿射传播聚类算法,AP算法是基于图的消息传递算法,每个对象可以看作是图上的一个点,它们之间进行消息传递。算法输入为N个对象之间的相似度矩阵,这 ...
【技术保护点】
一种面向专业领域的在线主题检测方法,其特征在于,该方法包括以下步骤:步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作,得到文本集的文本向量矩阵A,A=(Wtw,d),其中Wtw,d表示单词w在文本d中的权重,并在文本切分词的时候从文本集中提取词典;步骤二、通过LDA主题模型对文本向量矩阵进行建模,建模的数学表示如下:文本集是M个文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;文本是K个主题的集合,表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n个主 ...
【技术特征摘要】
1.一种面向专业领域的在线主题检测方法,其特征在于,该方法包括以下步骤:步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作,得到文本集的文本向量矩阵A,A=(Wtw,d),其中Wtw,d表示单词w在文本d中的权重,并在文本切分词的时候从文本集中提取词典;步骤二、通过LDA主题模型对文本向量矩阵进行建模,建模的数学表示如下:文本集是M个文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;文本是K个主题的集合,表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n个主题;主题是t个单词的集合,表示成θn={w1,w2,w3,…,wt},其中wt表示主题里的第t个词;将包含上万个单词的文本转换成文本在主题上的映射和主题在单词上的映射;步骤三、通过Gibbs采样来估计参数主题-词语分布和文本-主题分布θ,得到文本d对主题θk的混合权重p(θk|d)和主题θk中特征词ω出现的频率p(ω|θk),;对于每一个单一的样本,可以按下式估算和θ,如公式(1)、公式(2)所示:其中,表示主题j中单...
【专利技术属性】
技术研发人员:喻梅,原旭莹,于健,高洁,王建荣,辛伟,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。