当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于语义词网络的短文本主题挖掘方法技术

技术编号:21892224 阅读:19 留言:0更新日期:2019-08-17 14:38
本发明专利技术公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明专利技术将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。

A Short Text Topic Mining Method Based on Semantic Word Network

【技术实现步骤摘要】
一种基于语义词网络的短文本主题挖掘方法
本专利技术涉及一种短文本主题挖掘方法,尤其是一种基于语义词网络的短文本主题挖掘方法,该方法解决了普通主题挖掘方法在短文本特征稀疏情况下主题质量不高的问题。
技术介绍
随着社会发展节奏的不断加快以及智能移动终端带来的“短平快”的用户体验,人们在网络上的交流越来越趋于碎片化。因此,短文本数据在如今的网络信息交互中占据着越来越重要的地位,例如社交网络状态、微博文本消息、传统新闻标题、短视频标题和问答网站等都是以短文本形式出现。并且随着微博、知乎、Facebook、Twitter等大体量公司的崛起,短文本数据也是以极大的速度产生并积累着。因此,从海量的短文本数据中挖掘主题信息便具有十分重大的价值,例如舆情分析、信息检索、个性化推荐、用户兴趣聚类等都是主题挖掘的应用方向。而另一方面,使用传统的文本挖掘方法来挖掘短文本的主题信息却存在很大的困难,主要原因是短文本中词共现信息十分稀疏。目前,对于短文本特征稀疏的解决方案,一般都是利用词语共现关系进行。这种解决方案基于一个假设:在同一篇短文本中共现的词对是具有主题联系的。例如在短文本挖掘主题领域比较常用的两个模型词对主题模型与词网络主题模型。前者通过共现单词组成词对作为基本主题单元,后者通过共现单词为每个词语组成伪文档协助发掘对应词语的主题。这些方法都忽视了词语之间的语义联系,例如“假期”“假日”是语义十分接近的两个词,它们组成的词对本应比一般共现词对对主题的贡献更大,但是却由于同一篇短文本中鲜有共现而被一般模型所忽略。词向量是一种在计算机内部表示词语的方法,基于该表示可以将词语直接作为特征输入模型,为自然语言的处理带来了很大的便利。而分布式表示的词向量相对于以往的独热表示词向量一方面是向量维数更低更可控,另一方面其是利用大量外部语料通过神经语言模型训练,包含的语义信息也更加丰富。本专利技术利用分布式词向量表征语义的优势,提出利用词向量衡量词语的语义相似度并作为先验知识加入到词三角主题模型中,为短文本主题挖掘方法提供了一种新的解决思路。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是传统的主题模型在应对短文本数据特征稀缺性而考虑词语共现信息时,由于引入的噪音信息与忽略的语义信息而导致挖掘主题质量不够高的问题。本专利技术通过引入外部语义信息并融合词共现信息一起构建语义词网络来进行主题挖掘的方法:首先从相关领域收集外部语料通过word2vec模型训练词向量;然后遍历目标语料库结合词向量信息生成语义词网络,并在其中遴选出特定的词三角结构;接着利用吉布斯采样方法采样参数,并且多次迭代达到收敛;最后通过采样结果计算词三角的主题分布,进而推算目标语料库中文档的主体分布。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于语义词网络的短文本主题挖掘方法,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)-a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)-a-1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)-a-2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)-a-3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)-b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)-b-1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)-b-2)设置阈值δ;步骤2)-b-3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:其中,和分别表示词wi和wj对应的词向量;步骤2)-b-4)判断每一对词节点wi和wj间是否有边连接;若是,转到步骤2)-b-5);否则,转到步骤2)-b-6);步骤2)-b-5)将语义相似度sij记入边属性rij=<Sij,sij>中,其中Sij为词对原本的共现文档号集合;步骤2)-b-6)判断语义相似度sij是否满足sij>δ;若是,转到步骤2)-b-7);否则,该词对节点不做任何操作;步骤2)-b-7)在边集合E中加入边集合eij,并在边属性集合R中加入属性对rij=<Sij,sij>,令sij=sim(wi,wj);步骤2)-c对于语义词网络中每个词wi计算逆文档频率,公式如下:其中|d∈D:wi∈d|表示包含wi的文档的个数,ND表示语料库中文档总数;步骤2)-d在语义词网络中寻找满足以下条件的语义词三角:语义词三角中的三个单词节点之间互相有边连接,且来自不同文档子网络的连接部分;步骤3,模型训练阶段:对步骤2得到的所有语义词三角,随机初始化语义词三角的主题分布;通过吉布斯采样得到当前语义词三角分布,并且由此计算文档主题分布和主题词语分布更新参数,循环迭代,直到达到最大迭代次数或吉布斯采样收敛,将最后得到的吉布斯采样结果作为词三角主题分布;步骤4,结果输出阶段:根据步骤3得到的语义词三角主题分布,推算出原文档的主题分布。进一步的,所述步骤2)-d中寻找语义词三角的具体步骤包括:步骤2)-d-1)对于集合V中的任意三个词wi,wj,wk,判断节点之间是否各自存在边,即是否存在eij,ejk,eik∈E;若是,则转到步骤2)-d-2);步骤2)-d-2)判断是否满足Sij≠Sik∧Sik≠Sjk∧Sij≠Sjk;若是,则转到步骤2)-d-3);步骤2)-d-3)计算词三角先验知识其中,γijk=(γij+γik+γjk)/3,γij,γik,γjk计算方法如前文所述;步骤2)-d-4)生成语义词三角t=(wi,wj,wk,lijk)。进一步的,所述步骤3中,吉布斯采样的具体过程如下:步骤3)-a-1)初始化采样算法平台,利用机器学习方法,构建从条件概率分布中采样的程序,供SWTTM模型使用;步骤3)-a-2)给每个语义词三角随机初始化一个主题;步骤3)-a-3)选择合适的迭代次数T,并初始化:t=0;步骤3)-a-4)判断t是否小于T:若是,则转到步骤3)-a-5);若否,作为转到步骤3)-a-13);步骤3)-a-5)随机选择词三角tq=(wm,wn,wl,lmnl),根据拓展信息计算词三角的狄里克利分布超参数βm,βn,βl,具体公式如下:其中,∈是为了防止β值过小而设定的常数;步骤3)-a-6)计算模型中去除词本文档来自技高网
...

【技术保护点】
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)‑a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)‑a‑1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)‑a‑2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)‑a‑3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)‑b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)‑b‑1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)‑b‑2)设置阈值δ;步骤2)‑b‑3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:...

【技术特征摘要】
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)-a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)-a-1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)-a-2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)-a-3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)-b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)-b-1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)-b-2)设置阈值δ;步骤2)-b-3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:其中,和分别表示词wi和wj对应的词向量;步骤2)-b-4)判断每一对词节点wi和wj间是否有边连接;若是,转到步骤2)-b-5);否则,转到步骤2)-b-6);步骤2)-b-5)将语义相似度sij记入边属性rij=<Sij,sij>中,其中Sij为词对原本的共现文档号集合;步骤2)-b-6)判断语义相似度sij是否满足sij>δ;若是,转到步骤2)-b-7);否则,该词对节点不做任何操作;步骤2)-b-7)在边集合E中加入边集合eij,并在边属性集合R中加入属性对rij=<Sij,sij>,令sij=sim(wi,wj);步骤2)-c对于语义词网络中每个词wi计算逆文档频率,公式如下:其中|d∈D:wi∈d|表示包含wi的文档的个数,ND表示语料库中文档总数;步骤2)-d在语义词网络中寻找满足以下条件的语义词三角:语义词三角中的三个单词节点之间互相有边连接,且来自不同文档子网络的连接部分;步骤3,模型训练阶段:对步骤2得到的所有语义词三角,随机初始化语义词三角的主题分布;通过吉布斯采样得到当前语义词三角分布,并且由此计算文档主题分布和主题词语分布更新参数,循环迭代,直到达到最大迭代次数或吉布斯采样收敛,将最后得到的吉布斯采样结果作为词三角主题分布;步骤4,结果输出阶段:根据步骤3得到的语义词三角主题分布,推算出原文档的主题分布。2.根据权利要求1所述的一种基于语义词网络的短文本主题挖掘方法,其特征在于:所述步骤2)-d中寻找语义词三角的具体步骤包括:步骤2)-d-1)对于集合V中的任意三个词wi,wj,wk,判断节点之间是否各自存在边,即是否存在eij,ejk,eik∈E;若是,则转到步骤2)-d-2);步骤2)-d-2)判断是否满足Sij≠Sik∧Sik≠Sjk∧...

【专利技术属性】
技术研发人员:张雷经伟蔡洋陆恒杨徐鸣王崇骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1