基于用户交互的主题模型提升方法技术

技术编号:20866329 阅读:25 留言:0更新日期:2019-04-17 09:19
基于用户交互的主题模型提升方法,包括:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,在该可视化界面交互进行去停词操作;步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题‑文档分布和主题‑词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;步骤3:基于用户交互的模型提升阶段;对主题模型分析结果可视化视图进行分析和探索,分析当前主题模型的不足;然后将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算;最后重复该步骤进行迭代优化。

【技术实现步骤摘要】
基于用户交互的主题模型提升方法
本专利技术涉及一种通过可视化交互对主题模型进行提升的方法。
技术介绍
文本挖掘技术能够自动分析大量的文本数据,主题建模就是一种重要的文本挖掘技术。主题建模算法往往是一类无监督的机器学习算法,它根据发现的主题分布对文档集合进行分类。人们使用这些算法来快速了解文档集合的内容,而不需要耗费大量时间来分类和仔细阅读。但是主题模型通常是黑盒子模型,即用户无法理解如何得到模型分析结果,也很难对模型结果进行优化调整。主题模型的输出结果是主题与文档的分布信息以及词与主题的分布信息。用户必须仔细阅读这些分布信息,从而了解和探索结果。数据可视化可以为用户提供直观的方式来交互式地探索和分析数据,使他们能够有效地识别数据中蕴含的模式和信息。传统的主题模型基于用户设置的参数一次性生成主题分析结果。对于不太理想的主题模型分析结果,用户无法进一步根据自己的理解优化模型结果。
技术实现思路
本专利技术要克服现有技术的上述缺点,提供一种基于用户交互的主题模型提升方法。为了解决以上问题,本专利技术要提供一种基于用户交互的主题模型提升方法(如图1所示)。本方法首先对数据进行预处理,将预处理好的数据作为输入进行主题模型的训练;然后通过统计的方法提取主题模型的信息并设计数据可视化视图来展示这些信息;最后设计用户交互操作提取用户知识来提升主题模型分析结果。在本专利技术方法中,首先对数据进行预处理,将预处理好的数据作为输入进行主题模型的训练。然后通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示这些信息;最后根据用户在可视化视图中的交互提取用户的背景知识,并将用户背景知识带入模型中再次训练提升主题模型。基于用户交互的主题模型提升方法,包括如下步骤:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交互进行去停词操作;1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵D;1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示;TFIDFi,j=TFi,j×IDFi(3)其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中出现的次数,∑knk,j表示文档dj中所有词语的出现次数之和;IDFi表示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频;将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中根据TF-IDF值获得文档集中每个词的重要性,组成词的重要性列表L;1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对应词为停词,当某个词被设置为停词时,该视图中对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围;步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题-词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档,α表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数,zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词的主题分布β;2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题的标签分布,并使用饼图可视化出来;提取出各个主题下概率最高的前Q篇文档的标题,作为标题词云的输入;步骤3:基于用户交互的模型提升阶段;首先用户对主题模型分析结果可视化视图进行分析和探索,通过文档标签和主题关键词了解当前主题模型的语义分析结果,并进一步分析当前主题模型的不足;然后根据用户在可视化视图中的交互来获取更新先验知识,并将先验知识带入模型中再次训练;对前后两次模型输出的结果进行统计计算,获得当前主题模型的概述和前后主题模型的变化信息,并使用可视化方式展示给用户;最后重复该步骤进行迭代优化;3.1基于气泡云图的用户主题词交互:利用气泡云图的可视化技术将主题模型输出的主题-词分布可视化出来,使用tab组件来切换不同主题下词的分布,一个气泡表示一个单词,其大小与词在当前主题下的概率线性相关,所有气泡的最大半径是可以调节的;基于气泡云图的用户主题词交互包括:通过tab组件来选取进行操作的主题;通过单击气泡,选择“删除”按钮删除用户认为不属于该主题的单词;选择“设为停词”按钮将对应单词设置为停词;3.2基于用户交互的语料库和主题词更新:首先根据用户设置为停词的词,更新语料库信息,即删除设置为停词的单词,得到新的语料库。然后根据各个主题中删除的单词,更新各个主题的主题词信息;最后将新的语料库作为LDA模型的输入,各个主题的主题词信息作为模型的先验知识,再次训练模型;3.3更新前后的主题分析结果对比:对再次训练得到的模型结果进行步骤2.2的计算,提取当前主题模型的概述。对前后两次的主题模型的概述进行对比;比较前后两次模型中各个主题下概率最高的前R篇文档的标题,根据文档的主题概率,能够得到一个变化率其中doc_topic表示文档的主题概率,t表示模式的迭代时期;注意,如果文档是新出现的,即不是原来的前R篇文档,则Δdoc=1;比较前后两次模型中各个主题下概率最高的前P篇文档的前Q个关键词,根据PageRank算法得到的PR值,计算出变化率其中keyword_weight是通过PageRank计算得到的PR值,t表示模式的迭代时期;注意,如果关键词是新出现的,即不是原来的前Q个关键词,则Δkeyword=1;比较各个主题的标签信息,其中label_sum是标签的数量,t表示模式的迭代时期;注意,如果标签是新出现的,则Δlabel=1;使用正负轴条形图可视化出前后两次主题模型的变化信息,使用三种颜色分别表示标题、关键词以及标签。正负轴条形图中,x轴表示一个标题、关键词或标签,y轴表示变化率;3.4基于用户交互的迭代优化:根据上述获得的信息,使用词云和饼图可视化出当前主题模型的概述信息,使用气泡云图可视化出当前主题模型的主题-词分布本文档来自技高网...

【技术保护点】
1.基于用户交互的主题模型提升方法,包括如下步骤:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,包括分词、去停词、去标点;构建文档‑词矩阵D;对得到的文档‑词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交互进行去停词操作;1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分词,在根据停词表和符号表进行去停词和去标点,得到文档‑词矩阵D;1.2计算文档中每个词在语料库中的TF‑IDF值;词频TF、逆文档频率IDF以及词频‑逆文档频率TF‑IDF的计算公式如公式(1)(2)(3)所示;

【技术特征摘要】
1.基于用户交互的主题模型提升方法,包括如下步骤:步骤1:文档数据预处理;对语料库中每一篇文档进行数据预处理,包括分词、去停词、去标点;构建文档-词矩阵D;对得到的文档-词矩阵进行统计计算,获得语料库中每个词的重要性列表L;使用气泡云图对词的重要性列表L进行可视化,用户在该可视化界面交互进行去停词操作;1.1对原始数据集进行数据预处理,对语料库中每篇文档进行分词,在根据停词表和符号表进行去停词和去标点,得到文档-词矩阵D;1.2计算文档中每个词在语料库中的TF-IDF值;词频TF、逆文档频率IDF以及词频-逆文档频率TF-IDF的计算公式如公式(1)(2)(3)所示;TFIDFi,j=TFi,j×IDFi(3)其中TFi,j表示词语ti在文档dj中的词频,ni,j表示词语ti在文档dj中出现的次数,∑knk,j表示文档dj中所有词语的出现次数之和;IDFi表示词ti的逆文档频,|D|表示语料库中文档的总数,|{j:ti∈dj}|表示包含词语ti的文档数目;TFIDFi,j表示文档dj中词语ti的词频逆文档频;将TFIDFi=TFi×IDFi作为一个词在语料库中的重要性指标,其中根据TF-IDF值获得文档集中每个词的重要性,组成词的重要性列表L;1.3利用气泡云图作为可视化方式,将计算得到的每个词的重要性列表L可视化出来;每个气泡代表一个单词,其大小表征单词的重要性,即越大越重要;用户通过点击气泡来获得详细信息以及设置对应词为停词,当某个词被设置为停词时,该视图中对应的气泡也将被删除并更新停词表StopList;用户通过调节滑块调节最大气泡的半径以及界面中展示词的范围;步骤2:主题模型建模和分析结果的可视化;利用预处理好的语料库作为输入,通过LDA主题模型训练得到主题-文档分布和主题-词分布;通过统计的方法提取主题模型的信息,并设计数据可视化视图来展示信息;2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络,给定一个语料库,该模型分析该语料库中每篇文档的主题概率分布,以及每个词的主题概率分布。LDA主题模型的联合概率如公式(4)所示;θ表示一篇文档的主题分布,z表示一个主题,w表示一篇文档,c表示每篇文档下主题的多项分布的Dirichlet先验参数,β表示每个主题下词的多项分布的Dirichlet先验参数,N表示语料库中的文档数,zn表示一篇文档中第n个词的主题,wn表示一篇文档的第n个单词;通过LDA模型训练,得到每一篇文档的主题分布θ以及每个词的主题分布β;2.2利用词云和饼图对主题模型结果进行可视化;根据模型输出的结果查询出各个主题下概率最高的前P篇文档,并使用PageRank算法计算出排名前Q的关键词,作为关键词词云的输入;同时对各个主题下概率最高的前P篇文档的标签进行统计计算,获得各个主题的标签分布,并使用饼图可视...

【专利技术属性】
技术研发人员:汤颖苏建明
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1