一种基于平滑短语主题模型的主题提取方法及装置制造方法及图纸

技术编号:24207890 阅读:21 留言:0更新日期:2020-05-20 15:28
本发明专利技术实施例提供一种基于平滑短语主题模型的主题提取方法及装置,包括:提取待处理数据集内的有效词,得到预处理数据集;通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。通过平滑短语主题模型对候选短语数据集进行分析得到主题短语,通过主题短语形成相应的话题,提高了话题的可读性,更准确地表述了话题的真实信息。

A topic extraction method and device based on smooth phrase topic model

【技术实现步骤摘要】
一种基于平滑短语主题模型的主题提取方法及装置
本专利技术涉及数据挖掘领域,具体涉及一种基于平滑短语主题模型的主题提取方法及装置。
技术介绍
随着互联网的快速发展,微博、微信和头条等社交平台成为了信息传播和用户发布言论的主流媒介。微博凭借平台开放性、资讯时效性、内容简洁并且覆盖领域广等特点,吸引了越来越多的用户,逐渐成为网民获取新闻、人际交往、发布言论和参与社会事件讨论的重要途径以及反映社会舆论的重要平台。常见的微博热搜话题通常使用人工标注的短语来描述,如表1所示。表1微博热搜话题在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:现有话题发现方法大多基于词袋模型进行特征抽取,未考虑短语中词之间的关联信息,会造成部分有效信息丢失,且此类方法用孤立的词表示话题,导致话题表述可读性差、存在歧义,无法准确反映话题的真实信息。例如,话题1的数据经过挖掘的结果为“太阳、韩国、宋慧乔等”,难以得到如“太阳的后裔”这种短语描述的结果,话题理解性有待提高。
技术实现思路
本专利技术实施例提供一种基于平滑短语主题模型的主题提取方法及装置,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题,提高了话题的可读性,更准确地表述了话题的真实信息。为达上述目的,一方面,本专利技术实施例提供一种基于平滑短语主题模型的主题提取方法,包括:提取待处理数据集内的有效词,得到预处理数据集;通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。另一方面,本专利技术实施例提供一种基于平滑短语主题模型的主题提取装置,包括:预处理模块:用于提取待处理数据集内的有效词,得到预处理数据集;短语提取模块:用于通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;主题生成模块:用于通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。上述技术方案具有如下有益效果:利用Apriori关联算法生成频繁短语,结合文本的高斯分布特性生成高质量的候选短语能够快速收敛得到候选短语。基于平滑短语主题模型的微博话题使用文本的高斯分布特性挖掘候选短语,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是为本专利技术实施例的一种基于平滑短语主题模型的主题提取方法的流程图;图2是为本专利技术实施例的一种基于平滑短语主题模型的主题提取装置的结构示意图;图3是为本专利技术实施例的基于平滑短语主题模型进行主题提取的框架图;图4是为本专利技术实施例的预处理模块原理图;图5是为本专利技术实施例的SPLDA结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,结合本专利技术的实施例,提供一种基于平滑短语主题模型的主题提取方法,包括:S101:提取待处理数据集内的有效词,得到预处理数据集;S102:通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;S103:所述通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。优选地,在步骤102中,通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,具体包括:S1021:所述预处理数据集包括文本级别的数据集,当所述文本级别的数据集中某个词出现的次数大于Apriori算法中的最小支持度,则设定该词为频繁短语,生成频繁短语数据集;S1022:所述通过Apriori关联算法更新频繁短语数据集,具体包括:标记每个频繁短语在所述文本级别的数据集中的所在位置;检测文本级别的数据集中是否包含预设长度的频繁短语,当包含预设长度的频繁短语时则保留该文本级别的数据集;否则删除该文本级别的数据集;以及,在保留的文本级别的数据集中,针对同一长度的频繁短语,根据频繁短语所在位置,当与该频繁短语一侧相邻的短语也为频繁短语时,将频繁短语与该相邻的短语合成为第一级短语,当第一级短语达到最小支持度时,将该第一级短语添加到频繁短语数据集内,并将该第一级短语对应的两个相邻的频繁短语从频繁短语数据集中删除;重复循环将频繁短语与相邻的短语合成第一级短语直到第一级短语不满足最小支持度,完成对频繁短语数据集的更新。优选地,在步骤102中,将预处理数据集中符合预设要求的相邻的频繁短语合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集,具体包括:S1023:获取文本级别的数据集中两个相邻的频繁短语并将该两个频繁短语合为第二级短语,计算该第二级短语在文本级别的数据集中的重要度,所述重要度为该两个频繁短语在文本级别的数据集中相同位置出现的概率;S1024:当重要度不小于预设的第一阈值时,将该第二级短语添加到频繁短语数据集,并删除该两个相邻的频繁短语;S1025:循环将两个相邻的频繁短语合为一个第二级短语的操作,直到任何两个相邻的频繁短语合成的第二级短语的重要度小于预设的第一阈值,得到候选短语数据集。优选地,步骤103具体包括:通过SPLDA平滑短语主题模型计算候选短语在不同主题下的概率,当该候选短语在某主题中的概率不小于第二阈值时,将该候选短语作为主题短语,通过该主题短语形成相应的话题。优选地,步骤103还包括:还包括:计算候选短语中的词在主题下的概率分布的标准差本文档来自技高网...

【技术保护点】
1.一种基于平滑短语主题模型的主题提取方法,其特征在于,包括:/n提取待处理数据集内的有效词,得到预处理数据集;/n通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;/n通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。/n

【技术特征摘要】
1.一种基于平滑短语主题模型的主题提取方法,其特征在于,包括:
提取待处理数据集内的有效词,得到预处理数据集;
通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;
通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。


2.根据权利要求1所述的基于平滑短语主题模型的主题提取方法,其特征在于,
所述通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,具体包括:
所述预处理数据集包括文本级别的数据集,当所述文本级别的数据集中某个词出现的次数大于Apriori算法中的最小支持度,则设定该词为频繁短语,生成频繁短语数据集;
所述通过Apriori关联算法更新频繁短语数据集,具体包括:
并标记每个频繁短语在所述文本级别的数据集中的所在位置;
检测文本级别的数据集中是否包含预设长度的频繁短语,当包含预设长度的频繁短语时则保留该文本级别的数据集;否则删除该文本级别的数据集;以及,
在保留的文本级别的数据集中,针对同一长度的频繁短语,根据频繁短语所在位置,当与该频繁短语一侧相邻的短语也为频繁短语时,将频繁短语与该相邻的短语合成为第一级短语,当第一级短语达到最小支持度时,将该第一级短语添加到频繁短语数据集内,并将该第一级短语对应的两个相邻的频繁短语从频繁短语数据集中删除;重复循环将频繁短语与相邻的短语合成第一级短语直到第一级短语不满足最小支持度,完成对频繁短语数据集的更新。


3.根据权利要求2所述的基于平滑短语主题模型的主题提取方法,其特征在于,将预处理数据集中符合预设要求的相邻的频繁短语合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集,具体包括:
获取文本级别的数据集中两个相邻的频繁短语并将该两个频繁短语合为第二级短语,计算该第二级短语在文本级别的数据集中的重要度,所述重要度为该两个频繁短语在文本级别的数据集中相同位置出现的概率;
当重要度不小于预设的第一阈值时,将该第二级短语添加到频繁短语数据集,并删除该两个相邻的频繁短语;
循环将两个相邻的频繁短语合为一个第二级短语的操作,直到任何两个相邻的频繁短语合成的第二级短语的重要度小于预设的第一阈值,得到候选短语数据集。


4.根据权利要求1所述的基于平滑短语主题模型的主题提取方法,其特征在于,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题,具体包括:
通过SPLDA平滑短语主题模型计算候选短语在不同主题下的概率,当该候选短语在某主题中的概率不小于第二阈值时,将该候选短语作为主题短语,通过该主题短语形成相应的话题。


5.根据权利要求4所述的基于平滑短语主题模型的主题提取方法,其特征在于,还包括:计算候选短语中的词在主题下的概率分...

【专利技术属性】
技术研发人员:郭佳张景鹏徐路李油赵小琦
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1