面向科技需求的主题提取方法、装置和存储介质制造方法及图纸

技术编号:29675091 阅读:10 留言:0更新日期:2021-08-13 21:57
本发明专利技术提供一种面向科技需求的主题提取方法、装置和存储介质,所述方法包括:获取科技需求文本数据,所述科技需求文本数据中携带行业领域一级主题类别标签;基于属于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集;以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类;利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。本发明专利技术提高了科技资源信息主题提取的准确率。

【技术实现步骤摘要】
面向科技需求的主题提取方法、装置和存储介质
本专利技术涉及自然语言处理
,具体是一种面向科技需求的主题提取方法、装置和存储介质。
技术介绍
科研成果有大量领域分类与主题分析方面的研究,但企业对科研成果中的相关科技需求数据却少有研究。科技需求是科技大数据中各个类别数据资源的一种,属于社会企业技术需求的范围,主要是企业业务运转中所需要解决的技术难题与技术要求。目前,小网站收录的数据繁杂噪音多,数据语义稀疏,且没有细分类别,使得科技需求描述的主题不明确,导致对于科技需求的主题发展规律分析不够准确,从而使得。现有一种主题提取模型为基于概率的隐含狄利克雷分布(LatentDirichletAllocation,LDA)模型,应用数学原理中的先验知识数学概率分布进行主题提取。现有模型中关键词抽取模式为基于统计特征的关键词提取,其基于TF(TermFrequency)/TF-IDF(TermFrequency–InverseDocumentFrequency),利用文档中词语的统计信息抽取文档的关键词。现有的这种模型只应用了数学原理找到词的分布规律或者词频进行主题提取,但没有考虑文本语义信息,从而使得数据语义提取不准确的问题。于是,发展出了融合LDA主题差异度和长短期记忆网络(LongShort-TermMemory,LSTM)语义信息的关键词抽取方法,其加入了LSTM表示的标题向量与LDA提取的关键词向量之间语义相似度,并考虑了主题语义之间的差异度重新构建TextRank的状态矩阵进行主题提取,该方法基于标题这样的高质量文本语义来验证提取的文本主题是否接近标题语义。但这种方法没有充分利用标题信息,而本文对科技需求数据的主题提取要包含标题和内容两个方面,因此需要利用高质量的标题充分提取主题特征。因此,如何克服现有技术中的问题,综合考虑多个维度进行主题提取,从而提高科技资源信息主题发现的准确率,还是一个有待解决的问题。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种科技需求的主题提取方法、装置,通过结合Textrank与LDA2vec改进的主题提取方法对各领域分类中的主题进行抽取,通过结合词汇的重要性、语义关系和上下文整体与词汇的联系确定主题。本专利技术的一个方面,提供了一种面向知识产权的科技资源画像构建方法,该方法包括以下步骤:获取科技需求文本数据,所述科技需求文本数据中带有行业领域一级主题类别标签;基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集;以所述主题词向量为基础,根据每篇文档中初步提取的主题词集,按照预定的聚类数目对科技需求文本数据进行二级聚类;利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。在本专利技术一些实施方式中,所述科技需求文本数据为跨领域的科技需求文本数据;所述基于深度学习的主题模型为LDA2vec模型;所述基于科技需求文本数据分别获得单词向量和文档向量包括:利用Word2Vec模型将科技需求文本数据中的单词表示成词向量;以及使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量。在本专利技术一些实施方式中,所述使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量,包括:基于科技需求文本数据得到文档主题权重,并基于文档主题权重得到文档各主题所占的比例;以LDA初步提取出的文档主题生成主题矩阵;计算主题矩阵与文档主题比例的内积,得到文档向量。在本专利技术一些实施方式中,所述利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集,包括:将单词向量与文档向量相加得到该科技需求文本的上下文向量;该上下文向量经过SGNS模型采用负采样损失函数进行训练,训练之后输出从该科技需求文本中提取出的分数最高单词作为主题词并输出这些主题词的向量表示;将主题词向量的集合作为主题词集。在本专利技术一些实施例中,所述方法还包括:所述以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类所采用的聚类算法为K-means++聚类算法;该聚类算法选取在数据集中随机选取一个样本点作为第一个簇中心点,计算剩余样本点与所有簇中心的最短距离和某一样本点被选为下一个簇中心的概率,重复迭代计算概率选出与所述聚类数目对应数目的簇中心。在本专利技术一些实施例中,所述方法还包括:在预定时间段内统计提取出的主题词的词频,将提取的主题词结合时间序列来分析主题的演进规律。在本专利技术一些实施例中,所述利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,包括:针对每篇文档已经获取到的主题词集,由主题词向量计算词汇相似度得到初始词汇间关系权重;使用TextRank根据词之间共现关系计算每个词的重要性,获取词汇间关系权重,构建词图并采用共现关系构造任意两个节点之间的边;迭代计算各主题词向量对应的权重直至收敛;对主题词的权重进行排序得到最重要的预定数目个单词。本专利技术的另一方面,提供了一种面向科技需求的主题提取装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。本专利技术的又一方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。本专利技术实施例提供的面向科技需求的主题提取方法和装置,针对科技需求文本数据的领域分类宽泛以及每个行业领域技术应用点有交叉性的特点,基于主题模型和关键词提取技术,以数据所属行业领域为一级主题划分,在各领域类别中根据LDA2vec模型获取的主题特征通过聚类划分出二级类别并提取该类别的主题,根据细分出的二级类别中所有主题得分确定二级主题代表,来细化科技需求的分类,解决了科技需求数据分类宽泛不精细的问题。此外,本专利技术应用关键词提取技术对已经提取的主题词进行过滤,解决提取出的主题只考虑词汇语义和分布概率却未考虑词汇间关系的问题。进一步地,将提取的主题结合时间序列来分析主题的演进规律,绘制出主题演化趋势图,从而展现科技需求主题提取结果的应用性。本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以本文档来自技高网
...

【技术保护点】
1.一种面向科技需求的主题提取方法,其特征在于,该方法包括以下步骤:/n获取科技需求文本数据,所述科技需求文本数据中带有行业领域一级主题类别标签;/n基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;/n利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集;/n以所述主题词向量为基础,根据每篇文档中初步提取的主题词集,按照预定的聚类数目对科技需求文本数据进行二级聚类;/n利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。/n

【技术特征摘要】
1.一种面向科技需求的主题提取方法,其特征在于,该方法包括以下步骤:
获取科技需求文本数据,所述科技需求文本数据中带有行业领域一级主题类别标签;
基于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;
利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量和主题词集;
以所述主题词向量为基础,根据每篇文档中初步提取的主题词集,按照预定的聚类数目对科技需求文本数据进行二级聚类;
利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。


2.根据权利要求1所述的方法,其特征在于,
所述科技需求文本数据为跨领域的科技需求文本数据;
所述基于深度学习的主题模型为LDA2vec模型;
所述基于科技需求文本数据分别获得单词向量和文档向量包括:
利用Word2Vec模型将科技需求文本数据中的单词表示成词向量;以及
使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量。


3.根据权利要求2所述的方法,其特征在于,所述使用隐含狄利克雷分布LDA模型基于科技需求文本数据得到文档主题权重与文档主题分布矩阵,并基于所述文档主题权重与文档主题分布矩阵得到文档向量,包括:
基于科技需求文本数据得到文档主题权重,并基于文档主题权重得到文档各主题所占的比例;
以LDA初步提取出的文档主题生成主题矩阵;
计算主题矩阵与文档主题比例的内积,得到文档向量。


4.根据权利要求1所述的方法,其特征在于,所述利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集,包括:
将单词向量与文档向量相加得到该科技需求文本的上下文向量;
该上下文向量经过SGN...

【专利技术属性】
技术研发人员:杜军平崔海燕薛哲徐欣
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1