基于带约束非负矩阵分解的科技资源元数据检索方法技术

技术编号:14821240 阅读:160 留言:0更新日期:2017-03-15 19:39
本发明专利技术涉及信息技术领域,特别是一种基于带约束非负矩阵分解的科技资源元数据检索方法,包括以下步骤,S101:形成原始文档矩阵,对文本数据进行编号,并进行分词,为每个词分配唯一序号,以便能获取词对应的列,抽取文档Tf‑Idf特征,按照每一篇文档进行归一化,形成原始文档矩阵;S102:按照维度生成两个矩阵;S103:文档主题分类;S104:获得文档在主题下的表示,采用梯度下降方法,迭代矩阵,直至矩阵收敛,即可获得文档在主题下的表示。采用上述方法后,本发明专利技术相比计算较为复杂的奇异值分解,非负矩阵分解求解方法在算法复杂度上更加简单一些;另外,在主题质量上,产生的主题更加专有,更适合应用于检索。

【技术实现步骤摘要】

本专利技术涉及信息
,特别是一种基于带约束非负矩阵分解的科技资源元数据检索方法
技术介绍
词袋模型(BagofWord):将一片文档表示成为一个词向量,每一维度对应一个词,维度数值大小表示该文档中对应词的词频或者词权重。隐含语义分析LSA(LatentSemanticAnalysis):利用奇异值分解,将文档矩阵拆分为三个矩阵,实现文档到词空间的映射,实现词的语义表示。隐含狄利克雷分布LDA(LatentDirichletAllocation):基于概率分布,通过词来生成文档表示,使该文档表示能够含有语义信息。Word2Vec:使用深度学习方法,学习每一个词在空间中的表示,使得词在该空间中满足一定的语义信息。
技术实现思路
本专利技术需要解决的技术问题是提供一种简单的基于带约束非负矩阵分解的科技资源元数据检索方法。为解决上述的技术问题,本专利技术的基于带约束非负矩阵分解的科技资源元数据检索方法,包括以下步骤,S101:形成原始文档矩阵,对文本数据进行编号,并进行分词,为每个词分配唯一序号,以便能获取词对应的列,抽取文档Tf-Idf特征,按照每一篇文档进行归一化,形成原始文档矩阵;S102:按照维度生成两个矩阵;S103:文档主题分类;S104:获得文档在主题下的表示,采用梯度下降方法,迭代矩阵,直至矩阵收敛,即可获得文档在主题下的表示。进一步的,所述步骤S102中设定主题个数k,按照维度要求生成两个矩阵,用随机数初始化矩阵中的数值。进一步的,所述步骤S103中文档主题分为共有主题和私有主题两大类。更进一步的,所述步骤S103中共有主题的约束条件为约束文档的主题表示矩阵,前n列采用平滑约束;私有主题的约束条件为约束文档的主题表示矩阵,后m列采用稀疏约束。采用上述方法后,本专利技术相比计算较为复杂的奇异值分解,非负矩阵分解求解方法在算法复杂度上更加简单一些;另外,在主题质量上,产生的主题更加专有,更适合应用于检索。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术基于带约束非负矩阵分解的科技资源元数据检索方法的流程示意图。具体实施方式如图1所示,本专利技术的基于带约束非负矩阵分解的科技资源元数据检索方法,包括以下步骤,S101:形成原始文档矩阵,对文本数据进行编号,并进行分词,为每个词分配唯一序号,以便能获取词对应的列,抽取文档Tf-Idf特征,按照每一篇文档进行归一化,形成原始文档矩阵;S102:按照维度生成两个矩阵;S103:文档主题分类;S104:获得文档在主题下的表示,采用梯度下降方法,迭代矩阵,直至矩阵收敛,即可获得文档在主题下的表示。进一步的,所述步骤S102中设定主题个数k,按照维度要求生成两个矩阵,用随机数初始化矩阵中的数值。进一步的,所述步骤S103中文档主题分为共有主题和私有主题两大类。更进一步的,所述步骤S103中共有主题的约束条件为约束文档的主题表示矩阵,前n列采用平滑约束;私有主题的约束条件为约束文档的主题表示矩阵,后m列采用稀疏约束。虽然以上描述了本专利技术的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离本专利技术的原理和实质,本专利技术的保护范围仅由所附权利要求书限定。本文档来自技高网...
基于带约束非负矩阵分解的科技资源元数据检索方法

【技术保护点】
一种基于带约束非负矩阵分解的科技资源元数据检索方法,其特征在于,包括以下步骤,S101:形成原始文档矩阵,对文本数据进行编号,并进行分词,为每个词分配唯一序号,以便能获取词对应的列,抽取文档Tf‑Idf特征,按照每一篇文档进行归一化,形成原始文档矩阵;S102:按照维度生成两个矩阵;S103:文档主题分类;S104:获得文档在主题下的表示,采用梯度下降方法,迭代矩阵,直至矩阵收敛,即可获得文档在主题下的表示。

【技术特征摘要】
1.一种基于带约束非负矩阵分解的科技资源元数据检索方法,其特征在于,包括以下步骤,S101:形成原始文档矩阵,对文本数据进行编号,并进行分词,为每个词分配唯一序号,以便能获取词对应的列,抽取文档Tf-Idf特征,按照每一篇文档进行归一化,形成原始文档矩阵;S102:按照维度生成两个矩阵;S103:文档主题分类;S104:获得文档在主题下的表示,采用梯度下降方法,迭代矩阵,直至矩阵收敛,即可获得文档在主题下的表示。2.按照权利要求1所述的基于带约束非负矩阵分解的科技资源元数据...

【专利技术属性】
技术研发人员:李慧
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1