基于自扩充表示和相似双向约束的短文本主题发现方法及系统技术方案

技术编号:19215697 阅读:32 留言:0更新日期:2018-10-20 06:43
本分明提供一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统,该方法的步骤包括:基于TF‑IWF词权重度量方法构建待挖掘主题的词‑文档矩阵;向量化短文本文档并度量两两文档间相似性,得到虚拟长文档集合;利用TF‑IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵;合并两个矩阵为混合矩阵;构建词‑词语义相似矩阵、文档‑文档语义相似矩阵,进而构建词‑词语义关系正则项、文档‑文档语义关系正则项;得到TRNMF模型,通过分解损失函数值,获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵,发现短文本主题分布情况。

【技术实现步骤摘要】
基于自扩充表示和相似双向约束的短文本主题发现方法及系统
本专利技术涉及一种内部蕴含社交网络的社交型短文本数据主题挖掘的技术,具体涉及一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统。
技术介绍
随着互联网、移动应用及社交网络的迅猛发展,海量的短文本信息呈现爆炸式增长。分析和挖掘这些无结构的文本信息背后所蕴含的深层语义结构具有重要的理论价值和现实意义。例如,准确的语义理解可帮助企业根据用户的搜索请求偏好来完善产品功能,改善用户体验度;帮助政府检测出危害信息,防范危机,具有安定社会的重要作用;帮助用户避免信息过载问题,过滤无用信息,只关注有价值的信息。此外,大量网络应用服务,如产品评论、知识问答、查询推荐等,都需要理解大量短文本语义信息。可见,准确且高效的短文本理解技术对于改善网络应用平台的用户体验也至关重要。目前已有大量研究工作试图从海量的短文本数据中挖掘其语义信息。然而,短文本的有限长度、书写不规范、语义多歧义等特性为文本理解工作带来了新的挑战。因此,为了更好地理解短文本的语义信息,大量研究者在短文本语义分析与处理方面做出了很多尝试性的研究。总结相关工作,短文本主题建模采用的技术主要包括以下几个方面:(1)基于外部辅助数据源的方法。这类方法通过借用Wikipedia、WordNet、门户网站、搜索结果或者其他辅助数据来扩展每个短文本文档的表示,然后在内部特征和外部特征的共同作用下利用主题挖掘模型进行语义识别,以此来提高短文本主题挖掘的效果。但是,这种方式会带来外部噪音及引入维度灾难等问题,影响原始短文本文档的语义理解。另外,该方法对短文本主题挖掘的效果在很大程度上取决于原始短文本文档与扩展的外部数据的相关程度。事实上,由于短文本内容实时性较强,找到与之匹配的合适外部数据源有时候是非常困难的,而且二者在语言表达方式上也存在很大差异。(2)基于文本内部数据扩充的方法。这类方法通过按照同一作者、词共现关系、伪相关反馈、重采样等策略,实现短文本的重新聚合,形成一个虚拟长文档,再利用主题模型对其进行语义分析。这种启发式聚合策略的优点是不会引入一些异质数据源中的噪音,因此在目前短文本相关的研究中使用较多且模型性能表现优异。但是,该类方法存在着一个关键问题是如何选择扩展规则以及扩展表示方式,目前并没有形成一个通用的准则。如果扩展的不好,同样也可能给原始短文本文档带来语义理解的偏差。(3)基于文本标注信息表示短文本语义的方法。有别于上述两种方法,这类方法通过利用Hahstag、URL、表情符号、提及符号或回复符合等信息进行指定类型的主题模型学习,无法识别潜在主题。这种方式在本质上并没有解决短文本的内容稀疏性问题,而且文本标注信息通常非常少,所以这类方法的使用范围具有局限性。综上所述,目前对短文本的语义分析与挖掘的方法仍存在很多不足之处。借助外部数据源,抑或是内部数据扩展的方法都没有作出实质性的改进。短文本文档通常仅包含几个或十几个词,无论是词频信息还是词共现信息都非常缺乏,要基于如此有限的信息来推断出文档内部的主题结构非常困难。因此,解决短文本数据稀疏性问题是分析与挖掘短文本文档主题结构的关键所在,同时也是一个新的挑战。
技术实现思路
本专利技术的目的是提出一种基于自扩充表示和相似双向约束的短文本主题发现方法,该方法基于非负矩阵分解的短文本主题挖掘模型(即TRNMF,TopicModelusingRegularizedNon-negativeMatrixFactorization),可针对社交短文本数据集构建主题模型,即采用正则化非负矩阵分解算法为社交型短文本数据的主题挖掘提供解决方案。TRNMF模型从数据中内在蕴含的词共现关系的角度出发,以正则化非负矩阵分解算法为基础进行短文本的自扩展表示方式,解决了数据稀疏性问题,从而提升了短文本主题建模的精度和效率。为达到上述目的,本专利技术所采用的技术方案如下:一种基于自扩充表示和相似双向约束的短文本主题发现方法,其步骤包括:基于TF-IWF词权重度量方法,在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵;向量化原始短文本文档数据集中的短文本文档,再度量两两文档间相似性,从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示,得到虚拟长文档集合;利用TF-IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词-文档矩阵;合并待挖掘主题的词-文档矩阵和虚拟辅助的词-文档矩阵为混合矩阵;构建词-词语义相似矩阵,基于该矩阵构建词-词语义关系正则项;构建文档-文档语义相似矩阵,基于该矩阵构建文档-文档语义关系正则项;基于混合矩阵、词-词语义关系正则项、文档-文档语义关系正则项,得到基于正则化非负矩阵分解的TRNMF模型,通过分解损失函数值,获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵,发现短文本主题分布情况。进一步地,所述TF-IWF词权重度量方法是基于TF-IDF词权重度量方法针对短文本文档改进得到。进一步地,基于余弦相似度方法度量两两文档间相似性。进一步地,采用Doc2Vec算法对短文本文档进行向量化。进一步地,虚拟长文档集合的大小与原始短文本文档数据集相同。进一步地,虚拟辅助的词-文档矩阵和待挖掘主题的词-文档矩阵具有相同结构,共用同一关键词列表。进一步地,利用基于词嵌入的GloVe算法向量化短文本文档数据集中每个词,再利用余弦相似度方法度量两个词之间的相似度,构建词-词语义相似矩阵。进一步地,利用基于吉布斯采样的GSDMM算法对原始短文本文档集合和虚拟长文档集合进行聚类,根据短文本文档所属类别的不同,构建文档-文档语义相似矩阵。进一步地,将词-词语义关系正则项和文档-文档语义关系正则项融合到TRNMF模型的目标函数中;通过随机梯度下降算法计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵。一种基于自扩充表示和相似双向约束的短文本主题发现系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法中各步骤的指令。本专利技术方法为短文本文档数据的主题挖掘提供了新的解决方案,具有以下有益效果:1、该方法通过选取短文本文档数据内部的最相关文档作为扩展对象,在不引入外界辅助数据源的情况下,完成对短文本文档的自扩充表示,进而解决短文本文档主题挖掘中数据稀疏性的问题,为此类短文本文档数据集主题模型构建提供了解决方案。2、该方法通过基于词语义相似性和文档语义相似性的双向约束策略,分别构建词语义正则项和文档语义正则项,解决了现有短文本主题建模解决方案中语义相关性信息缺失的问题或单方面词共现关系不足对主题挖掘模型的不利影响问题,从根本上提升了短文本主题挖掘模型语义识别的精度。附图说明图1为基于矩阵分解主题模型中文档-主题-词语之间的关系示意图。图2为目标主题矩阵和辅助矩阵之间的合并示意图。图3为基于自扩充表示和相似双向约束的短文本主题发现方法流程图。图4为实施例中针对社交短文本数据集的主题模型构建方法的示意图。图5为本专利技术与基准方法在News数据上前5个最相关主题词的主题一致性对比图。图6为本专利技术与基准方法在News数据上前10本文档来自技高网
...

【技术保护点】
1.一种基于自扩充表示和相似双向约束的短文本主题发现方法,其步骤包括:基于TF‑IWF词权重度量方法,在原始短文本文档数据集上构建待挖掘主题的词‑文档矩阵;向量化原始短文本文档数据集中的短文本文档,再度量两两文档间相似性,从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示,得到虚拟长文档集合;利用TF‑IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵;合并待挖掘主题的词‑文档矩阵和虚拟辅助的词‑文档矩阵为混合矩阵;构建词‑词语义相似矩阵,基于该矩阵构建词‑词语义关系正则项;构建文档‑文档语义相似矩阵,基于该矩阵构建文档‑文档语义关系正则项;基于混合矩阵、词‑词语义关系正则项、文档‑文档语义关系正则项,得到基于正则化非负矩阵分解的TRNMF模型,通过分解损失函数值,获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵,发现短文本主题分布情况。

【技术特征摘要】
1.一种基于自扩充表示和相似双向约束的短文本主题发现方法,其步骤包括:基于TF-IWF词权重度量方法,在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵;向量化原始短文本文档数据集中的短文本文档,再度量两两文档间相似性,从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示,得到虚拟长文档集合;利用TF-IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词-文档矩阵;合并待挖掘主题的词-文档矩阵和虚拟辅助的词-文档矩阵为混合矩阵;构建词-词语义相似矩阵,基于该矩阵构建词-词语义关系正则项;构建文档-文档语义相似矩阵,基于该矩阵构建文档-文档语义关系正则项;基于混合矩阵、词-词语义关系正则项、文档-文档语义关系正则项,得到基于正则化非负矩阵分解的TRNMF模型,通过分解损失函数值,获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵,发现短文本主题分布情况。2.根据权利要求1所述的方法,其特征在于,所述TF-IWF词权重度量方法是基于TF-IDF词权重度量方法针对短文本文档改进得到。3.根据权利要求1所述的方法,其特征在于,基于余弦相似度方法度量两两文档间相似性。4.根据权利要求1所述的方法,其特征在于,采用D...

【专利技术属性】
技术研发人员:姜波李宁卢志刚姜政伟
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1