【技术实现步骤摘要】
一种适用于数据挖掘的全景可视化图谱生成方法及装置
本专利技术涉及计算机
,具体涉及一种适用于数据挖掘的全景可视化图谱生成方法及装置。
技术介绍
数据挖掘(Datamining)又译为资料探勘或数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。目前,进行数据挖掘大多采用如下两种方式:(1)概率主题模型(LDA)及其各种变种;(2)基于神经网络的词向量(Word2Vec)及其变种。其中,概率主题模型是基于词袋模型,抽象出具有语义连贯性的概率分布作为一个知识点-主题,它体现了自然语言中远距离的语义一致性关联,它刻画了复杂的语意,主题图谱是一种宏观意义上一致性的语义抽象;而神经网络的词向量则是以神经语言模型为基础,将每个词当成一个高维向量,通 ...
【技术保护点】
1.一种适用于数据挖掘的全景可视化图谱生成方法,其特征在于,包括:/n在获取到语料库后,根据词表对所述语料库中各个文档的词语集合进行数值化处理,得到数值化训练样本,其中,所述语料库中包含有海量的文档;/n将所述数值化训练样本输入至Word2Vec模型中进行训练,训练完毕后,得到所述数值化训练样本中各个词语的词向量;/n将所述数值化训练样本输入至LDA模型中进行训练,训练完毕后,分别得到数值化训练样本的主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;/n根据所述词向量得到各个词语的相 ...
【技术特征摘要】
1.一种适用于数据挖掘的全景可视化图谱生成方法,其特征在于,包括:
在获取到语料库后,根据词表对所述语料库中各个文档的词语集合进行数值化处理,得到数值化训练样本,其中,所述语料库中包含有海量的文档;
将所述数值化训练样本输入至Word2Vec模型中进行训练,训练完毕后,得到所述数值化训练样本中各个词语的词向量;
将所述数值化训练样本输入至LDA模型中进行训练,训练完毕后,分别得到数值化训练样本的主题-词语矩阵和文档-主题矩阵,其中,所述主题-词语矩阵表示每个主题中出现每个词语的概率,所述文档-主题矩阵表示每个文档中出现每个主题的概率;
根据所述词向量得到各个词语的相关词语集合,根据所述主题-词语矩阵获取各个主题的特征词语集合,根据所述文档-主题矩阵获取各个主题的关联主题,其中,所述关联主题表示与某个主题共同出现在同一文档中的另一共现主题;
在获取到待搜索词语后,在各个词语的相关词语集合中查找到所述待搜索词语的相关词语集合,在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题,然后将位于所述待搜索词语的相关词语集合中的词语以及位于所述目标主题的特征词语集合中的词语分别作为所述待搜索词语的关联词语;
在获取到所述待搜索词语后,在所述特征词语集合中查找到包含有所述待搜索词语的所有目标主题,并查找到与各个目标主题对应的目标关联主题,将所有目标主题以及与各个目标主题对应的目标关联主题作为所述待搜索词语的匹配主题;
获取所有目标主题以及所有目标关联主题对应的作者和单位,生成所述匹配主题与作者和单位的映射关系;
将所述关联词语、所述匹配主题以及所述匹配主题与作者和单位的映射关系转换为所述待搜索词语的全景可视化图谱,进行输出展示,其中,所述全景可视化图谱包括有待搜索词语的关联词语的可视化内容、待搜索词语的匹配主题的可视化内容以及匹配主题与作者和单位的映射关系的可视化内容。
2.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法,其特征在于,采用如下步骤,对所述语料库中各个文档的词语集合进行数值化处理,得到数值化训练样本:
对所述语料库中的所有文档进行切词处理,切词处理完毕后,提取出包含在所述词表中的词语,并统计每个词语出现的频次,得到所述语料库的总词语集合和各个文档的词语集合,其中,在切词处理完毕后,提取出包含在所述词表中的词语,每个均不相同;
对所述总词语集合中的每个词语进行唯一编码,使每个词语对应一个数字唯一标识,编码完成后,得到数字编码词典;
根据所述数字编码词典将文档词语集合中的词语转换为对应的数字唯一标识,得到所述数值化训练样本。
3.根据权利要求2所述的一种适用于数据挖掘的全景可视化图谱生成方法,其特征在于,对所述语料库中的所有文档进行切词处理包括以下方式:
使用正向最大匹配算法进行中文词组分词和/或英文词组分词;当进行英文词组分词时,还可使用构建数据结构字典树结合正向最大匹配算法的方式进行分词。
4.根据权利要求1所述的一种适用于数据挖掘的全景可视化图谱生成方法,其特征在于,根据所述词向量得到各个词语的相关词语集合包括:
针对每个词语,根据该词语对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。