一种基于平滑短语主题模型的主题提取方法及装置制造方法及图纸

技术编号：24207890 阅读：22 留言：0更新日期：2020-05-20 15:28

本发明专利技术实施例提供一种基于平滑短语主题模型的主题提取方法及装置，包括：提取待处理数据集内的有效词，得到预处理数据集；通过Apriori关联算法自预处理数据集中提取出频繁短语，形成频繁短语数据集；根据频繁短语出现频率的高斯分布特性，将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语，并将新的短语加入到频繁短语数据集，形成候选短语数据集；通过SPLDA平滑短语主题模型对候选短语数据集进行分析，得到主题短语，通过主题短语形成相应的话题。通过平滑短语主题模型对候选短语数据集进行分析得到主题短语，通过主题短语形成相应的话题，提高了话题的可读性，更准确地表述了话题的真实信息。

A topic extraction method and device based on smooth phrase topic model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于平滑短语主题模型的主题提取方法及装置
本专利技术涉及数据挖掘领域，具体涉及一种基于平滑短语主题模型的主题提取方法及装置。
技术介绍
随着互联网的快速发展，微博、微信和头条等社交平台成为了信息传播和用户发布言论的主流媒介。微博凭借平台开放性、资讯时效性、内容简洁并且覆盖领域广等特点，吸引了越来越多的用户，逐渐成为网民获取新闻、人际交往、发布言论和参与社会事件讨论的重要途径以及反映社会舆论的重要平台。常见的微博热搜话题通常使用人工标注的短语来描述，如表1所示。表1微博热搜话题在实现本专利技术过程中，申请人发现现有技术中至少存在如下问题：现有话题发现方法大多基于词袋模型进行特征抽取，未考虑短语中词之间的关联信息，会造成部分有效信息丢失，且此类方法用孤立的词表示话题，导致话题表述可读性差、存在歧义，无法准确反映话题的真实信息。例如，话题1的数据经过挖掘的结果为“太阳、韩国、宋慧乔等”，难以得到如“太阳的后裔”这种短语描述的结果，话题理解性有待提高。
技术实现思路
本...

【技术保护点】
1.一种基于平滑短语主题模型的主题提取方法，其特征在于，包括：/n提取待处理数据集内的有效词，得到预处理数据集；/n通过Apriori关联算法自预处理数据集中提取出频繁短语，形成频繁短语数据集，并通过Apriori关联算法更新频繁短语数据集；根据频繁短语出现频率的高斯分布特性，将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语，并将新的短语加入到频繁短语数据集，形成候选短语数据集；/n通过SPLDA平滑短语主题模型对候选短语数据集进行分析，得到主题短语，通过主题短语形成相应的话题。/n

【技术特征摘要】
1.一种基于平滑短语主题模型的主题提取方法，其特征在于，包括：
提取待处理数据集内的有效词，得到预处理数据集；
通过Apriori关联算法自预处理数据集中提取出频繁短语，形成频繁短语数据集，并通过Apriori关联算法更新频繁短语数据集；根据频繁短语出现频率的高斯分布特性，将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语，并将新的短语加入到频繁短语数据集，形成候选短语数据集；
通过SPLDA平滑短语主题模型对候选短语数据集进行分析，得到主题短语，通过主题短语形成相应的话题。

2.根据权利要求1所述的基于平滑短语主题模型的主题提取方法，其特征在于，
所述通过Apriori关联算法自预处理数据集中提取出频繁短语，形成频繁短语数据集，具体包括：
所述预处理数据集包括文本级别的数据集，当所述文本级别的数据集中某个词出现的次数大于Apriori算法中的最小支持度，则设定该词为频繁短语，生成频繁短语数据集；
所述通过Apriori关联算法更新频繁短语数据集，具体包括：
并标记每个频繁短语在所述文本级别的数据集中的所在位置；
检测文本级别的数据集中是否包含预设长度的频繁短语，当包含预设长度的频繁短语时则保留该文本级别的数据集；否则删除该文本级别的数据集；以及，
在保留的文本级别的数据集中，针对同一长度的频繁短语，根据频繁短语所在位置，当与该频繁短语一侧相邻的短语也为频繁短语时，将频繁短语与该相邻的短语合成为第一级短语，当第一级短语达到最小支持度时，将该第一级短语添加到频繁短语数据集内，并将该第一级短语对应的两个相邻的频繁短语从频繁短语数据集中删除；重复循环将频繁短语与相邻的短语合成第一级短语直到第一级短语不满足最小支持度，完成对频繁短语数据集的更新。

3.根据权利要求2所述的基于平滑短语主题模型的主题提取方法，其特征在于，将预处理数据集中符合预设要求的相邻的频繁短语合成新的短语，并将新的短语加入到频繁短语数据集，形成候选短语数据集，具体包括：
获取文本级别的数据集中两个相邻的频繁短语并将该两个频繁短语合为第二级短语，计算该第二级短语在文本级别的数据集中的重要度，所述重要度为该两个频繁短语在文本级别的数据集中相同位置出现的概率；
当重要度不小于预设的第一阈值时，将该第二级短语添加到频繁短语数据集，并删除该两个相邻的频繁短语；
循环将两个相邻的频繁短语合为一个第二级短语的操作，直到任何两个相邻的频繁短语合成的第二级短语的重要度小于预设的第一阈值，得到候选短语数据集。

4.根据权利要求1所述的基于平滑短语主题模型的主题提取方法，其特征在于，通过SPLDA平滑短语主题模型对候选短语数据集进行分析，得到主题短语，通过主题短语形成相应的话题，具体包括：
通过SPLDA平滑短语主题模型计算候选短语在不同主题下的概率，当该候选短语在某主题中的概率不小于第二阈值时，将该候选短语作为主题短语，通过该主题短语形成相应的话题。

5.根据权利要求4所述的基于平滑短语主题模型的主题提取方法，其特征在于，还包括：计算候选短语中的词在主题下的概率分...

【专利技术属性】
技术研发人员：郭佳，张景鹏，徐路，李油，赵小琦，
申请(专利权)人：微梦创科网络科技中国有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人