基于低秩矩阵分解的文章话题关键词提取方法和装置制造方法及图纸

技术编号:13629203 阅读:150 留言:0更新日期:2016-09-02 07:37
本发明专利技术实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置。该方法主要包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,使用基于文本图模型的关键词抽取算法抽取数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询词向量化文件,建立特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。本发明专利技术采用低秩矩阵分解的方法生成微博等文章话题的关键词,有效的解决了微博等文章话题关键词的稀疏性问题,大大降低了非关键词数据噪声的干扰。

【技术实现步骤摘要】

本专利技术涉及文章关键字提取
,尤其涉及一种基于低秩矩阵分解的文章话题关键词提取方法和装置
技术介绍
现在已经进入Web3.0时代,信息呈现指数爆炸式增长,如何提高信息访问效率成为一个越来越重要的问题。为了对海量信息进行有效地组织、压缩和检索,人们迫切地希望通过若干个词语对信息进行很好地概括或索引。以微博为代表的新兴媒体成为人们交流、分享的重要渠道。一个关键词抽取系统对如何快速地寻找用户感兴趣的话题,以及如何监管话题的内容都具有着重要的意义。微博文本相比传统新闻文本字数较少,并且微博话题种类较,微博内容杂乱,质量参差不齐。有一些内容涉及色情、恐怖以及一些其他的不良微博,人工进行管控,工作量巨大。若能抽取微博的关键词,则能快速定位不良微博,管控舆情走向,因此,开发一种有效地提取微博话题关键词的方法是十分必要的。
技术实现思路
本专利技术的实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置,以实现有效地对文章话题关键词进行提取。为了实现上述目的,本专利技术采取了如下技术方案。一种基于低秩矩阵分解的文章话题关键词提取方法,包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,该词向量化文件中包括多个词语向量,所述词语包含关键词和非关键词;使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。进一步地,所述的使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括:对待处理的文章文本进行数据预处理,该数据预处理包括清洗、分词、去除停用词。进一步地,所述的将词表征为实数值向量的工具包括:word2vec工具。进一步地,所述的使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵,包括:针对特定话题,使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点,词语之间的关系作为文本图的边,建立文本图模型,顶点的权重的计算公式如下: W S ( V i ) = ( 1 - P ) + P * Σ V j ∈ I n ( V i ) w i j Σ v k ∈ O u t ( V j ) w j k W S ( V j ) ]]>其中WS(Vi)表示词语i的权重;P是预先设置的阻尼系数,In(Vi)是存在指向词语i的所有词语的集合;Out(Vj)是词语j指向的所有词语的集合;wij表示
词语i和词语j之间的联系强度;将所有词语的权值进行降序排序,选取排列靠前的设定数量个词语作为关键词;根据所述抽取的关键词查询所述词向量化文件,获取关键词对应的关键词向量,根据所有的关键词向量组成关键词矩阵: W ( r * n ) , r = m * d , m = Σ i = 1 n k i ]]>其中,ki为特定话题下第i个事件抽取的关键词的个数,n为每个事件抽取的关键词的个数,d为每个关键词向量的维数。进一步地,所述的采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词,包括:所述关键词矩阵的分解的式子如下:X=XZ+E其中,X是观测到的数据矩阵,即所述关键词矩阵W(r*n),Z是要恢复的低秩性矩阵,E为数据噪声;基于低秩矩阵分解的文章话题关键词提取方法,得到凸优化问题如下式: min J , Z , E || J || * + λ || E || 2 , 1 ]]>s.t.X=XZ+EZ=Jλ是约束参数,J是要求解的关键词低秩矩阵;所述凸优化问题采用增广的拉格朗日乘子方法求解,要求解的最小化拉格朗日函数构造如下: l = λ || E || 1 + ( || J || * + < Y , X - X Z - E > + < 本文档来自技高网
...

【技术保护点】
一种基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,该词向量化文件中包括多个词语向量,所述词语包含关键词和非关键词;使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。

【技术特征摘要】
1.一种基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,该词向量化文件中包括多个词语向量,所述词语包含关键词和非关键词;使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。2.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,所述的使用将词表征为实数值向量的工具训练数据预处理后的文本之前还包括:对待处理的文章文本进行数据预处理,该数据预处理包括清洗、分词、去除停用词。3.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,所述的将词表征为实数值向量的工具包括:word2vec工具。4.根据权利要求1所述的基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,所述的使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵,包括:针对特定话题,使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点,词语之间的关系作为文本图的边,建立文本图模型,顶点的权重的计算公式如下: W S ( V i ) = ( 1 - P ) + P * Σ V j ∈ I n ( V i ) w i j Σ v k ∈ O u t ( V j ) w j k W S ( V j ) ]]>其中WS(Vi)表示词语i的权重;P是预先设置的阻尼系数,In(Vi)是存在指向词语i的所有词语的集合;Out(Vj)是词语j指向的所有词语的集合;wij表示词语i和词语j之间的联系强度;将所有词语的权值进行降序排序,选取排列靠前的设定数量个词语作为关键词;根据所述抽取的关键词查询所述词向量化文件,获取关键词对应的关键词向量,根据所有的关键词向量组成关键词矩阵:W(r*n),r=m*d,其中,ki为特定话题下第i个事件抽取的关键词的个数,n为每个事件抽取的关键词的个数,d为每个关键词向量的维数。5.根据权利要求4所述的基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,所述的采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词,包括:所述关键词矩阵的分解的式子如下:X=XZ+E其中,X是观测到的数据矩阵,即所述关键词矩阵W(r*n),Z是要恢复的低秩性矩阵,E为数据噪声;基于低秩矩阵分解的文章话题关键词提取方法,得到凸优化问题如下式: min J , Z , E | | J | | * + λ | | E | | 2 , 1 ]]>s.t.X=XZ+EZ=Jλ是约束参数,J是要求解的关键词低秩矩阵;所述凸优化问题采用增广的拉格朗日乘子方法求解,要求解的最小化拉格朗日函数构造如下: l = λ | | E | | 1 + ( | | J | | * + < Y , X - X Z - E > + < W , Z - J > + μ 2 | | X - X Z - E | | F 2 + μ 2 | | Z - J | | f 2 ) ]]>其中,Y和W均是拉格朗日乘子,参数μ>0是惩...

【专利技术属性】
技术研发人员:郎丛妍何伟明于兆鹏冯松鹤王涛杜雪涛张晨
申请(专利权)人:北京交通大学中国移动通信集团设计院有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1