【技术实现步骤摘要】
一种基于语义词网络的短文本主题挖掘方法
本专利技术涉及一种短文本主题挖掘方法,尤其是一种基于语义词网络的短文本主题挖掘方法,该方法解决了普通主题挖掘方法在短文本特征稀疏情况下主题质量不高的问题。
技术介绍
随着社会发展节奏的不断加快以及智能移动终端带来的“短平快”的用户体验,人们在网络上的交流越来越趋于碎片化。因此,短文本数据在如今的网络信息交互中占据着越来越重要的地位,例如社交网络状态、微博文本消息、传统新闻标题、短视频标题和问答网站等都是以短文本形式出现。并且随着微博、知乎、Facebook、Twitter等大体量公司的崛起,短文本数据也是以极大的速度产生并积累着。因此,从海量的短文本数据中挖掘主题信息便具有十分重大的价值,例如舆情分析、信息检索、个性化推荐、用户兴趣聚类等都是主题挖掘的应用方向。而另一方面,使用传统的文本挖掘方法来挖掘短文本的主题信息却存在很大的困难,主要原因是短文本中词共现信息十分稀疏。目前,对于短文本特征稀疏的解决方案,一般都是利用词语共现关系进行。这种解决方案基于一个假设:在同一篇短文本中共现的词对是具有主题联系的。例如在短文本挖掘主题领域比较常用的两个模型词对主题模型与词网络主题模型。前者通过共现单词组成词对作为基本主题单元,后者通过共现单词为每个词语组成伪文档协助发掘对应词语的主题。这些方法都忽视了词语之间的语义联系,例如“假期”“假日”是语义十分接近的两个词,它们组成的词对本应比一般共现词对对主题的贡献更大,但是却由于同一篇短文本中鲜有共现而被一般模型所忽略。词向量是一种在计算机内部表示词语的方法,基于该表示可以将词语直接 ...
【技术保护点】
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)‑a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)‑a‑1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)‑a‑2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)‑a‑3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij ...
【技术特征摘要】
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)-a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)-a-1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)-a-2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)-a-3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)-b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)-b-1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)-b-2)设置阈值δ;步骤2)-b-3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:其中,和分别表示词wi和wj对应的词向量;步骤2)-b-4)判断每一对词节点wi和wj间是否有边连接;若是,转到步骤2)-b-5);否则,转到步骤2)-b-6);步骤2)-b-5)将语义相似度sij记入边属性rij=<Sij,sij>中,其中Sij为词对原本的共现文档号集合;步骤2)-b-6)判断语义相似度sij是否满足sij>δ;若是,转到步骤2)-b-7);否则,该词对节点不做任何操作;步骤2)-b-7)在边集合E中加入边集合eij,并在边属性集合R中加入属性对rij=<Sij,sij>,令sij=sim(wi,wj);步骤2)-c对于语义词网络中每个词wi计算逆文档频率,公式如下:其中|d∈D:wi∈d|表示包含wi的文档的个数,ND表示语料库中文档总数;步骤2)-d在语义词网络中寻找满足以下条件的语义词三角:语义词三角中的三个单词节点之间互相有边连接,且来自不同文档子网络的连接部分;步骤3,模型训练阶段:对步骤2得到的所有语义词三角,随机初始化语义词三角的主题分布;通过吉布斯采样得到当前语义词三角分布,并且由此计算文档主题分布和主题词语分布更新参数,循环迭代,直到达到最大迭代次数或吉布斯采样收敛,将最后得到的吉布斯采样结果作为词三角主题分布;步骤4,结果输出阶段:根据步骤3得到的语义词三角主题分布,推算出原文档的主题分布。2.根据权利要求1所述的一种基于语义词网络的短文本主题挖掘方法,其特征在于:所述步骤2)-d中寻找语义词三角的具体步骤包括:步骤2)-d-1)对于集合V中的任意三个词wi,wj,wk,判断节点之间是否各自存在边,即是否存在eij,ejk,eik∈E;若是,则转到步骤2)-d-2);步骤2)-d-2)判断是否满足Sij≠Sik∧Sik≠Sjk∧...
【专利技术属性】
技术研发人员:张雷,经伟,蔡洋,陆恒杨,徐鸣,王崇骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。