基于自扩充表示和相似双向约束的短文本主题发现方法及系统技术方案

技术编号：19215697 阅读：32 留言：0更新日期：2018-10-20 06:43

本分明提供一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统，该方法的步骤包括：基于TF‑IWF词权重度量方法构建待挖掘主题的词‑文档矩阵；向量化短文本文档并度量两两文档间相似性，得到虚拟长文档集合；利用TF‑IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵；合并两个矩阵为混合矩阵；构建词‑词语义相似矩阵、文档‑文档语义相似矩阵，进而构建词‑词语义关系正则项、文档‑文档语义关系正则项；得到TRNMF模型，通过分解损失函数值，获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵，发现短文本主题分布情况。

全部详细技术资料下载

【技术实现步骤摘要】
基于自扩充表示和相似双向约束的短文本主题发现方法及系统
本专利技术涉及一种内部蕴含社交网络的社交型短文本数据主题挖掘的技术，具体涉及一种基于自扩充表示和相似双向约束的短文本主题发现方法及系统。
技术介绍
随着互联网、移动应用及社交网络的迅猛发展，海量的短文本信息呈现爆炸式增长。分析和挖掘这些无结构的文本信息背后所蕴含的深层语义结构具有重要的理论价值和现实意义。例如，准确的语义理解可帮助企业根据用户的搜索请求偏好来完善产品功能，改善用户体验度；帮助政府检测出危害信息，防范危机，具有安定社会的重要作用；帮助用户避免信息过载问题，过滤无用信息，只关注有价值的信息。此外，大量网络应用服务，如产品评论、知识问答、查询推荐等，都需要理解大量短文本语义信息。可见，准确且高效的短文本理解技术对于改善网络应用平台的用户体验也至关重要。目前已有大量研究工作试图从海量的短文本数据中挖掘其语义信息。然而，短文本的有限长度、书写不规范、语义多歧义等特性为文本理解工作带来了新的挑战。因此，为了更好地理解短文本的语义信息，大量研究者在短文本语义分析与处理方面做出了很多尝试性的研究。总结相关工作，短文本主题建模采用的技术主要包括以下几个方面：(1)基于外部辅助数据源的方法。这类方法通过借用Wikipedia、WordNet、门户网站、搜索结果或者其他辅助数据来扩展每个短文本文档的表示，然后在内部特征和外部特征的共同作用下利用主题挖掘模型进行语义识别，以此来提高短文本主题挖掘的效果。但是，这种方式会带来外部噪音及引入维度灾难等问题，影响原始短文本文档的语义理解。另外，该方法对短文本主题挖掘...

【技术保护点】
1.一种基于自扩充表示和相似双向约束的短文本主题发现方法，其步骤包括：基于TF‑IWF词权重度量方法，在原始短文本文档数据集上构建待挖掘主题的词‑文档矩阵；向量化原始短文本文档数据集中的短文本文档，再度量两两文档间相似性，从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示，得到虚拟长文档集合；利用TF‑IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词‑文档矩阵；合并待挖掘主题的词‑文档矩阵和虚拟辅助的词‑文档矩阵为混合矩阵；构建词‑词语义相似矩阵，基于该矩阵构建词‑词语义关系正则项；构建文档‑文档语义相似矩阵，基于该矩阵构建文档‑文档语义关系正则项；基于混合矩阵、词‑词语义关系正则项、文档‑文档语义关系正则项，得到基于正则化非负矩阵分解的TRNMF模型，通过分解损失函数值，获得最优的词‑话题潜在特征矩阵、话题‑文档潜在特征矩阵，发现短文本主题分布情况。

【技术特征摘要】
1.一种基于自扩充表示和相似双向约束的短文本主题发现方法，其步骤包括：基于TF-IWF词权重度量方法，在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵；向量化原始短文本文档数据集中的短文本文档，再度量两两文档间相似性，从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示，得到虚拟长文档集合；利用TF-IWF词权重度量方法，在虚拟长文档集合上构建虚拟辅助的词-文档矩阵；合并待挖掘主题的词-文档矩阵和虚拟辅助的词-文档矩阵为混合矩阵；构建词-词语义相似矩阵，基于该矩阵构建词-词语义关系正则项；构建文档-文档语义相似矩阵，基于该矩阵构建文档-文档语义关系正则项；基于混合矩阵、词-词语义关系正则项、文档-文档语义关系正则项，得到基于正则化非负矩阵分解的TRNMF模型，通过分解损失函数值，获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵，发现短文本主题分布情况。2.根据权利要求1所述的方法，其特征在于，所述TF-IWF词权重度量方法是基于TF-IDF词权重度量方法针对短文本文档改进得到。3.根据权利要求1所述的方法，其特征在于，基于余弦相似度方法度量两两文档间相似性。4.根据权利要求1所述的方法，其特征在于，采用D...

【专利技术属性】
技术研发人员：姜波，李宁，卢志刚，姜政伟，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人