一种基于深度学习的技术溯源的方法技术

技术编号：37439170 阅读：19 留言：0更新日期：2023-05-06 09:11

本发明专利技术提出一种基于深度学习的技术溯源的方法，包括，获取溯源目标领域的代表性关键词，利用预先构建的强相关词典对关键词进行扩充，得到扩展关键词；根据大规模语训练模型OAGBRT对代表性关键词及扩展关键词进行向量表示，获取多个关键词向量；利用多层MLP对多个关键词向量进行合并和特征提取；根据提取的特征通过LSTM循环神经网络进行溯源序列的预测；根据溯源序列的预测输出溯源目标领域的技术发展链条。通过本发明专利技术提出的方法，解决了技术溯源预测的问题。溯源预测的问题。溯源预测的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的技术溯源的方法

[0001]本专利技术属于大数据、数据挖掘、数据分析、深度学习领域。

技术介绍

[0002]目前主流的技术溯源方法，是通过对学术文献中提到的引用关联文献进行搜索，按照引用顺序形成一条技术发展的链条达到溯源的目的。但是这种方法有3个主要的问题。
[0003]第一是需要根据输入进行论文的数据的收集和后续处理，以及大量的计算，无法满足较快的实时计算的需求。本专利技术通过深度学习模型的强大数据拟合能力，利用大量历史数据中的主要的相关信息对神经网络的大量的参数，进行最优化的调整，使模型具备了快速的预测能力。
[0004]第二，对于某个成熟的技术，它的发展链条会很长，如果通过引用文献追溯，所以涉及的相关技和领域盘根错节，交叉关联复杂，最终形成的溯源链条将会是一个发散的覆盖了几乎相关领域和技术的一个技术链条的网络，无法达到溯源的目的。本专利技术设计的深度神经网络算法模型，通过对历史数据的不断学习，使模型具备自动判断分析和合理预测所属学科领域范围。从而排除不差距较大的交叉学科，纠正错误的偏向，使溯源技术链条能够始终聚焦在相关度较高的的学科领域方向。
[0005]第三，目前的主流溯源方法的输入是关键词，而关键词的同词异构问题是一直困扰学术文本分析的一个痛点。在溯源领域亦是如此，本专利技术为了解决这个问题，除了在预测阶段使用基于深度学习算法模型，在输入文本的扩展等多个位置也都使用了基于深度学习语义模型，使得对于关键词的处理方式上，克服了传统方法中只使用关键词的字符信息这种离散信息...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的技术溯源的方法，其特征在于，包括以下步骤：获取溯源目标领域的代表性关键词，利用预先构建的强相关词典对所述关键词进行扩充，得到扩展关键词；根据大规模语训练模型OAGBRT对所述代表性关键词及扩展关键词进行向量表示，获取多个关键词向量；利用多层MLP对所述多个关键词向量进行合并和特征提取；根据提取的特征通过LSTM循环神经网络进行溯源序列的预测；根据所述溯源序列的预测输出溯源目标领域的技术发展链条。2.根据权利要求1所述的方法，其特征在于，所述利用预先构建的强相关词典对所述关键词进行扩充，包括：使用统计加语义的组合方式对目标词表中的关键词进行强相关性的判断，分别计算词共现相似度和语义相似度；对所述词共现相似度与所述语义相似度分数进行加权求和，得到综合相似度，按照综合相似度对目标词表中的关键词从大到小排序，选择预设数量的排名靠前的关键词加入强相关词典；根据所述强相关词典对所述关键词进行扩充。3.根据权利要求2所述的方法，所述使用统计加语义的组合方式对目标词进行强相关性的判断，分别计算词共现相似度和语义相似度，包括：通过公式sim(A,B)＝P(A|B)*P(B|A)进行计算词共现相似度计算；其中，P(A|B)表示在历史文献中，关键词B出现条件下，关键词A出现的概率，P(B|A)表示在历史文献中，关键词A出现条件下，关键词B出现的概率；通过使用预先训练好的word2vec模型进行语义相似度计算。4.根据权利要求1所述的方法，其特征在于，所述根据所述溯源序列的预测输出溯源目标领域的技术发展链条，包括：选择输出概率靠前的N个关键词作为该节点的细粒度核心技术关键词，根据每个节点的输出从后向前反向的组成的链条得到溯源目标领域的技术发展链条。5.一种基于深度学习的技术溯源的装置，其特征在于，包括以下模块：获取模块，用于获取溯源目标领域的一个或多个代表性关键词，利用预先构建的强相关词典对所述关键词进行扩充，得到扩...

【专利技术属性】
技术研发人员：史小文，楮晓泉，刘德兵，仇瑜，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人