基于用户交互的主题模型提升方法技术

技术编号：20866329 阅读：36 留言：0更新日期：2019-04-17 09:19

基于用户交互的主题模型提升方法，包括：步骤1：文档数据预处理；对语料库中每一篇文档进行数据预处理，获得语料库中每个词的重要性列表L；使用气泡云图对词的重要性列表L进行可视化，在该可视化界面交互进行去停词操作；步骤2：主题模型建模和分析结果的可视化；利用预处理好的语料库作为输入，通过LDA主题模型训练得到主题‑文档分布和主题‑词分布；通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示信息；步骤3：基于用户交互的模型提升阶段；对主题模型分析结果可视化视图进行分析和探索，分析当前主题模型的不足；然后将先验知识带入模型中再次训练；对前后两次模型输出的结果进行统计计算；最后重复该步骤进行迭代优化。

全部详细技术资料下载

【技术实现步骤摘要】
基于用户交互的主题模型提升方法
本专利技术涉及一种通过可视化交互对主题模型进行提升的方法。
技术介绍
文本挖掘技术能够自动分析大量的文本数据，主题建模就是一种重要的文本挖掘技术。主题建模算法往往是一类无监督的机器学习算法，它根据发现的主题分布对文档集合进行分类。人们使用这些算法来快速了解文档集合的内容，而不需要耗费大量时间来分类和仔细阅读。但是主题模型通常是黑盒子模型，即用户无法理解如何得到模型分析结果，也很难对模型结果进行优化调整。主题模型的输出结果是主题与文档的分布信息以及词与主题的分布信息。用户必须仔细阅读这些分布信息，从而了解和探索结果。数据可视化可以为用户提供直观的方式来交互式地探索和分析数据，使他们能够有效地识别数据中蕴含的模式和信息。传统的主题模型基于用户设置的参数一次性生成主题分析结果。对于不太理想的主题模型分析结果，用户无法进一步根据自己的理解优化模型结果。
技术实现思路
本专利技术要克服现有技术的上述缺点，提供一种基于用户交互的主题模型提升方法。为了解决以上问题，本专利技术要提供一种基于用户交互的主题模型提升方法(如图1所示)。本方法首先对数据进行...

【技术保护点】
1.基于用户交互的主题模型提升方法，包括如下步骤：步骤1：文档数据预处理；对语料库中每一篇文档进行数据预处理，包括分词、去停词、去标点；构建文档‑词矩阵D；对得到的文档‑词矩阵进行统计计算，获得语料库中每个词的重要性列表L；使用气泡云图对词的重要性列表L进行可视化，用户在该可视化界面交互进行去停词操作；1.1对原始数据集进行数据预处理，对语料库中每篇文档进行分词，在根据停词表和符号表进行去停词和去标点，得到文档‑词矩阵D；1.2计算文档中每个词在语料库中的TF‑IDF值；词频TF、逆文档频率IDF以及词频‑逆文档频率TF‑IDF的计算公式如公式(1)(2)(3)所示；

【技术特征摘要】
1.基于用户交互的主题模型提升方法，包括如下步骤：步骤1：文档数据预处理；对语料库中每一篇文档进行数据预处理，包括分词、去停词、去标点；构建文档-词矩阵D；对得到的文档-词矩阵进行统计计算，获得语料库中每个词的重要性列表L；使用气泡云图对词的重要性列表L进行可视化，用户在该可视化界面交互进行去停词操作；1.1对原始数据集进行数据预处理，对语料库中每篇文档进行分词，在根据停词表和符号表进行去停词和去标点，得到文档-词矩阵D；1.2计算文档中每个词在语料库中的TF-IDF值；词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示；TFIDFi，j＝TFi，j×IDFi(3)其中TFi，j表示词语ti在文档dj中的词频，ni，j表示词语ti在文档dj中出现的次数，∑knk，j表示文档dj中所有词语的出现次数之和；IDFi表示词ti的逆文档频，|D|表示语料库中文档的总数，|{j：ti∈dj}|表示包含词语ti的文档数目；TFIDFi，j表示文档dj中词语ti的词频逆文档频；将TFIDFi＝TFi×IDFi作为一个词在语料库中的重要性指标，其中根据TF-IDF值获得文档集中每个词的重要性，组成词的重要性列表L；1.3利用气泡云图作为可视化方式，将计算得到的每个词的重要性列表L可视化出来；每个气泡代表一个单词，其大小表征单词的重要性，即越大越重要；用户通过点击气泡来获得详细信息以及设置对应词为停词，当某个词被设置为停词时，该视图中对应的气泡也将被删除并更新停词表StopList；用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围；步骤2：主题模型建模和分析结果的可视化；利用预处理好的语料库作为输入，通过LDA主题模型训练得到主题-文档分布和主题-词分布；通过统计的方法提取主题模型的信息，并设计数据可视化视图来展示信息；2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，该模型分析该语料库中每篇文档的主题概率分布，以及每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示；θ表示一篇文档的主题分布，z表示一个主题，w表示一篇文档，c表示每篇文档下主题的多项分布的Dirichlet先验参数，β表示每个主题下词的多项分布的Dirichlet先验参数，N表示语料库中的文档数，zn表示一篇文档中第n个词的主题，wn表示一篇文档的第n个单词；通过LDA模型训练，得到每一篇文档的主题分布θ以及每个词的主题分布β；2.2利用词云和饼图对主题模型结果进行可视化；根据模型输出的结果查询出各个主题下概率最高的前P篇文档，并使用PageRank算法计算出排名前Q的关键词，作为关键词词云的输入；同时对各个主题下概率最高的前P篇文档的标签进行统计计算，获得各个主题的标签分布，并使用饼图可视...

【专利技术属性】
技术研发人员：汤颖，苏建明，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人