基于带约束非负矩阵分解的科技资源元数据检索方法技术

技术编号：14821240 阅读：160 留言：0更新日期：2017-03-15 19:39

本发明专利技术涉及信息技术领域，特别是一种基于带约束非负矩阵分解的科技资源元数据检索方法，包括以下步骤，S101：形成原始文档矩阵，对文本数据进行编号，并进行分词，为每个词分配唯一序号，以便能获取词对应的列，抽取文档Tf‑Idf特征，按照每一篇文档进行归一化，形成原始文档矩阵；S102：按照维度生成两个矩阵；S103：文档主题分类；S104：获得文档在主题下的表示，采用梯度下降方法，迭代矩阵，直至矩阵收敛，即可获得文档在主题下的表示。采用上述方法后，本发明专利技术相比计算较为复杂的奇异值分解，非负矩阵分解求解方法在算法复杂度上更加简单一些；另外，在主题质量上，产生的主题更加专有，更适合应用于检索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息
，特别是一种基于带约束非负矩阵分解的科技资源元数据检索方法。
技术介绍
词袋模型(BagofWord)：将一片文档表示成为一个词向量，每一维度对应一个词，维度数值大小表示该文档中对应词的词频或者词权重。隐含语义分析LSA(LatentSemanticAnalysis)：利用奇异值分解，将文档矩阵拆分为三个矩阵，实现文档到词空间的映射，实现词的语义表示。隐含狄利克雷分布LDA(LatentDirichletAllocation)：基于概率分布，通过词来生成文档表示，使该文档表示能够含有语义信息。Word2Vec：使用深度学习方法，学习每一个词在空间中的表示，使得词在该空间中满足一定的语义信息。
技术实现思路
本专利技术需要解决的技术问题是提供一种简单的基于带约束非负矩阵分解的科技资源元数据检索方法。为解决上述的技术问题，本专利技术的基于带约束非负矩阵分解的科技资源元数据检索方法，包括以下步骤，S101：形成原始文档矩阵，对文本数据进行编号，并进行分词，为每个词分配唯一序号，以便能获取词对应的列，抽取文档Tf-Idf特征，按照每一篇文档进行归一化，形成原始文档矩阵；S102：按照维度生成两个矩阵；S103：文档主题分类；S104：获得文档在主题下的表示，采用梯度下降方法，迭代矩阵，直至矩阵收敛，即可获得文档在主题下的表示。进一步的，所述步骤S102中设定主题个数k，按照维度要求生成两个矩阵，用随机数初始化矩阵中的数值。进一步的，所述步骤S103中文档主题分为共有主题和私有主题两大类。更进一步的，所述步骤S103中共有主题的约束条件为约束...
基于带约束非负矩阵分解的科技资源元数据检索方法

【技术保护点】
一种基于带约束非负矩阵分解的科技资源元数据检索方法，其特征在于，包括以下步骤，S101：形成原始文档矩阵，对文本数据进行编号，并进行分词，为每个词分配唯一序号，以便能获取词对应的列，抽取文档Tf‑Idf特征，按照每一篇文档进行归一化，形成原始文档矩阵；S102：按照维度生成两个矩阵；S103：文档主题分类；S104：获得文档在主题下的表示，采用梯度下降方法，迭代矩阵，直至矩阵收敛，即可获得文档在主题下的表示。

【技术特征摘要】
1.一种基于带约束非负矩阵分解的科技资源元数据检索方法，其特征在于，包括以下步骤，S101：形成原始文档矩阵，对文本数据进行编号，并进行分词，为每个词分配唯一序号，以便能获取词对应的列，抽取文档Tf-Idf特征，按照每一篇文档进行归一化，形成原始文档矩阵；S102：按照维度生成两个矩阵；S103：文档主题分类；S104：获得文档在主题下的表示，采用梯度下降方法，迭代矩阵，直至矩阵收敛，即可获得文档在主题下的表示。2.按照权利要求1所述的基于带约束非负矩阵分解的科技资源元数据...

【专利技术属性】
技术研发人员：李慧，
申请(专利权)人：太极计算机股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人