一种基于深度学习的技术溯源的方法技术

技术编号:37439170 阅读:19 留言:0更新日期:2023-05-06 09:11
本发明专利技术提出一种基于深度学习的技术溯源的方法,包括,获取溯源目标领域的代表性关键词,利用预先构建的强相关词典对关键词进行扩充,得到扩展关键词;根据大规模语训练模型OAGBRT对代表性关键词及扩展关键词进行向量表示,获取多个关键词向量;利用多层MLP对多个关键词向量进行合并和特征提取;根据提取的特征通过LSTM循环神经网络进行溯源序列的预测;根据溯源序列的预测输出溯源目标领域的技术发展链条。通过本发明专利技术提出的方法,解决了技术溯源预测的问题。溯源预测的问题。溯源预测的问题。

【技术实现步骤摘要】
一种基于深度学习的技术溯源的方法


[0001]本专利技术属于大数据、数据挖掘、数据分析、深度学习领域。

技术介绍

[0002]目前主流的技术溯源方法,是通过对学术文献中提到的引用关联文献进行搜索,按照引用顺序形成一条技术发展的链条达到溯源的目的。但是这种方法有3个主要的问题。
[0003]第一是需要根据输入进行论文的数据的收集和后续处理,以及大量的计算,无法满足较快的实时计算的需求。本专利技术通过深度学习模型的强大数据拟合能力,利用大量历史数据中的主要的相关信息对神经网络的大量的参数,进行最优化的调整,使模型具备了快速的预测能力。
[0004]第二,对于某个成熟的技术,它的发展链条会很长,如果通过引用文献追溯,所以涉及的相关技和领域盘根错节,交叉关联复杂,最终形成的溯源链条将会是一个发散的覆盖了几乎相关领域和技术的一个技术链条的网络,无法达到溯源的目的。本专利技术设计的深度神经网络算法模型,通过对历史数据的不断学习,使模型具备自动判断分析和合理预测所属学科领域范围。从而排除不差距较大的交叉学科,纠正错误的偏向,使溯源技术链条能够始终聚焦在相关度较高的的学科领域方向。
[0005]第三,目前的主流溯源方法的输入是关键词,而关键词的同词异构问题是一直困扰学术文本分析的一个痛点。在溯源领域亦是如此,本专利技术为了解决这个问题,除了在预测阶段使用基于深度学习算法模型,在输入文本的扩展等多个位置也都使用了基于深度学习语义模型,使得对于关键词的处理方式上,克服了传统方法中只使用关键词的字符信息这种离散信息处理算法的弊端,融合了关键词语义信息,使得本专利技术在溯源预测的准确率和实用性上都取得了不错的效果。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的目的在于提出一种基于深度学习的技术溯源的方法,用于技术溯源预测。
[0008]为达上述目的,本专利技术第一方面实施例提出了一种基于深度学习的技术溯源的方法,包括:
[0009]获取溯源目标领域的代表性关键词,利用预先构建的强相关词典对所述关键词进行扩充,得到扩展关键词;
[0010]根据大规模语训练模型OAGBRT对所述代表性关键词及扩展关键词进行向量表示,获取多个关键词向量;
[0011]利用多层MLP对所述多个关键词向量进行合并和特征提取;
[0012]根据提取的特征通过LSTM循环神经网络进行溯源序列的预测;
[0013]根据所述溯源序列的预测输出溯源目标领域的技术发展链条。
[0014]另外,根据本专利技术上述实施例的一种基于深度学习的技术溯源的方法还可以具有以下附加的技术特征:
[0015]进一步地,在本专利技术的一个实施例中,所述利用预先构建的强相关词典对所述关键词进行扩充,包括:
[0016]使用统计加语义的组合方式对目标词表中的关键词进行强相关性的判断,分别计算词共现相似度和语义相似度;
[0017]对所述词共现相似度与所述语义相似度分数进行加权求和,得到综合相似度,按照综合相似度对目标词表中的关键词从大到小排序,选择预设数量的排名靠前的关键词加入强相关词典;
[0018]根据所述强相关词典对所述关键词进行扩充。
[0019]进一步地,在本专利技术的一个实施例中,所述使用统计加语义的组合方式对目标词进行强相关性的判断,分别计算词共现相似度和语义相似度,包括:
[0020]通过公式sim(A,B)=P(A|B)*P(B|A)进行计算词共现相似度计算;
[0021]其中,P(A|B)表示在历史文献中,关键词B出现条件下,关键词A出现的概率,P(B|A)表示在历史文献中,关键词A出现条件下,关键词B出现的概率;
[0022]通过使用预先训练好的word2vec模型进行语义相似度计算。
[0023]进一步地,在本专利技术的一个实施例中,所述根据所述溯源序列的预测输出溯源目标领域的技术发展链条,包括:
[0024]选择输出概率靠前的N个关键词作为该节点的细粒度核心技术关键词,根据每个节点的输出从后向前反向的组成的链条得到溯源目标领域的技术发展链条。
[0025]为达上述目的,本专利技术第二方面实施例提出了一种基于深度学习的技术溯源的装置,包括以下模块:
[0026]获取模块,用于获取溯源目标领域的一个或多个代表性关键词,利用预先构建的强相关词典对所述关键词进行扩充,得到扩展关键词;
[0027]编码模块,用于根据大规模语训练模型OAGBRT对每个关键词及扩展关键词要进行向量表示,获取关键词向量;
[0028]提取模块,用于利用多层MLP对多个关键词向量进行合并和特征提取;
[0029]预测模块,用于根据提取的特征通过LSTM循环神经网络进行溯源序列的预测;
[0030]输出模块,用于根据所述溯源序列的预测输出溯源目标领域的技术发展链条。
[0031]进一步地,在本专利技术的一个实施例中,所述获取模块,还用于:
[0032]使用统计加语义的组合方式对目标词表进行强相关性的判断,分别计算词共现相似度和语义相似度;
[0033]对所述词共现相似度与所述语义相似度分数进行加权求和,得到综合相似度,按照综合相似度对目标词表中的关键词从大到小排序,选择预设数量的排名靠前的关键词加入强相关词典;
[0034]根据所述强相关词典对所述关键词进行扩充。
[0035]进一步地,在本专利技术的一个实施例中,所述获取模块,还用于:
[0036]通过公式sim(A,B)=P(A|B)*P(B|A)进行计算词共现相似度计算;
[0037]其中,P(A|B)表示在历史文献中,关键词B出现条件下,关键词A出现的概率,P(B|
A)表示在历史文献中,关键词A出现条件下,关键词B出现的概率;
[0038]通过使用预先训练好的word2vec模型进行语义相似度计算。
[0039]进一步地,在本专利技术的一个实施例中,所述输出模块,包括:
[0040]选择输出概率靠前的N个关键词作为该节点的细粒度核心技术关键词,根据每个节点的输出从后向前反向的组成的链条得到溯源目标领域的技术发展链条。
[0041]为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种基于深度学习的技术溯源的方法。
[0042]为达上述目的,本专利技术第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种基于深度学习的技术溯源的方法。
[0043]本专利技术实施例提出的基于深度学习的技术溯源的方法,第一通过深度学习模型的强大数据拟合能力,利用大量历史数据中的主要的相关信息对神经网络的大量的参数,进行最优化的调整,使模型具备了快速的预测能力;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的技术溯源的方法,其特征在于,包括以下步骤:获取溯源目标领域的代表性关键词,利用预先构建的强相关词典对所述关键词进行扩充,得到扩展关键词;根据大规模语训练模型OAGBRT对所述代表性关键词及扩展关键词进行向量表示,获取多个关键词向量;利用多层MLP对所述多个关键词向量进行合并和特征提取;根据提取的特征通过LSTM循环神经网络进行溯源序列的预测;根据所述溯源序列的预测输出溯源目标领域的技术发展链条。2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的强相关词典对所述关键词进行扩充,包括:使用统计加语义的组合方式对目标词表中的关键词进行强相关性的判断,分别计算词共现相似度和语义相似度;对所述词共现相似度与所述语义相似度分数进行加权求和,得到综合相似度,按照综合相似度对目标词表中的关键词从大到小排序,选择预设数量的排名靠前的关键词加入强相关词典;根据所述强相关词典对所述关键词进行扩充。3.根据权利要求2所述的方法,所述使用统计加语义的组合方式对目标词进行强相关性的判断,分别计算词共现相似度和语义相似度,包括:通过公式sim(A,B)=P(A|B)*P(B|A)进行计算词共现相似度计算;其中,P(A|B)表示在历史文献中,关键词B出现条件下,关键词A出现的概率,P(B|A)表示在历史文献中,关键词A出现条件下,关键词B出现的概率;通过使用预先训练好的word2vec模型进行语义相似度计算。4.根据权利要求1所述的方法,其特征在于,所述根据所述溯源序列的预测输出溯源目标领域的技术发展链条,包括:选择输出概率靠前的N个关键词作为该节点的细粒度核心技术关键词,根据每个节点的输出从后向前反向的组成的链条得到溯源目标领域的技术发展链条。5.一种基于深度学习的技术溯源的装置,其特征在于,包括以下模块:获取模块,用于获取溯源目标领域的一个或多个代表性关键词,利用预先构建的强相关词典对所述关键词进行扩充,得到扩...

【专利技术属性】
技术研发人员:史小文楮晓泉刘德兵仇瑜
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1