面向科技需求的主题提取方法、装置和存储介质制造方法及图纸

技术编号：29675091 阅读：25 留言：0更新日期：2021-08-13 21:57

本发明专利技术提供一种面向科技需求的主题提取方法、装置和存储介质，所述方法包括：获取科技需求文本数据，所述科技需求文本数据中携带行业领域一级主题类别标签；基于属于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量；利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集；以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类；利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序，根据主题词得分筛选出作为二级聚类主题类别标签词的主题词，并将得分最高的主题词作为本类别二级主题代表。本发明专利技术提高了科技资源信息主题提取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
面向科技需求的主题提取方法、装置和存储介质
本专利技术涉及自然语言处理
，具体是一种面向科技需求的主题提取方法、装置和存储介质。
技术介绍
科研成果有大量领域分类与主题分析方面的研究，但企业对科研成果中的相关科技需求数据却少有研究。科技需求是科技大数据中各个类别数据资源的一种，属于社会企业技术需求的范围，主要是企业业务运转中所需要解决的技术难题与技术要求。目前，小网站收录的数据繁杂噪音多，数据语义稀疏，且没有细分类别，使得科技需求描述的主题不明确，导致对于科技需求的主题发展规律分析不够准确，从而使得。现有一种主题提取模型为基于概率的隐含狄利克雷分布（LatentDirichletAllocation，LDA）模型，应用数学原理中的先验知识数学概率分布进行主题提取。现有模型中关键词抽取模式为基于统计特征的关键词提取，其基于TF（TermFrequency）/TF-IDF（TermFrequency–InverseDocumentFrequency），利用文档中词语的统计信息抽取文档的关键词。现有的这种模型只应用了...

【技术保护点】
1.一种面向科技需求的主题提取方法，其特征在于，该方法包括以下步骤：/n获取科技需求文本数据，所述科技需求文本数据中带有行业领域一级主题类别标签；/n基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量；/n利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集；/n以所述主题词向量为基础，根据每篇文档中初步提取的主题词集，按照预定的聚类数目对科技需求文本数据进行二级聚类；/n利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序，根据主题词得分筛选出作为二级聚类主题类别标签词的主题词，并将得分最高的主题词作为本类别二级主题代表。/n

【技术特征摘要】
1.一种面向科技需求的主题提取方法，其特征在于，该方法包括以下步骤：
获取科技需求文本数据，所述科技需求文本数据中带有行业领域一级主题类别标签；
基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量；
利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集；
以所述主题词向量为基础，根据每篇文档中初步提取的主题词集，按照预定的聚类数目对科技需求文本数据进行二级聚类；
利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序，根据主题词得分筛选出作为二级聚类主题类别标签词的主题词，并将得分最高的主题词作为本类别二级主题代表。

2.根据权利要求1所述的方法，其特征在于，
所述科技需求文本数据为跨领域的科技需求文本数据；
所述基于深度学习的主题模型为LDA2vec模型；
所述基于科技需求文本数据分别获得单词向量和文档向量包括：
利用Word2Vec模型将科技需求文本数据中的单词表示成词向量；以及
使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵，并基于所述文档主题权重与文档主题分布矩阵得到文档向量。

3.根据权利要求2所述的方法，其特征在于，所述使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵，并基于所述文档主题权重与文档主题分布矩阵得到文档向量，包括：
基于科技需求文本数据得到文档主题权重，并基于文档主题权重得到文档各主题所占的比例；
以LDA初步提取出的文档主题生成主题矩阵；
计算主题矩阵与文档主题比例的内积，得到文档向量。

4.根据权利要求1所述的方法，其特征在于，所述利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集，包括：
将单词向量与文档向量相加得到该科技需求文本的上下文向量；
该上下文向量经过SGN...

【专利技术属性】
技术研发人员：杜军平，崔海燕，薛哲，徐欣，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人