【技术实现步骤摘要】
基于深度学习的学术领域数据相关性预测方法、计算机
本专利技术属于计算机网络数据预测
,尤其涉及一种基于深度学习的学术领域数据相关性预测方法、计算机。
技术介绍
目前,最接近的现有技术:随着科学研究在学术界和工业界广泛进行,学者们创造出源源不断的大量科研成果,于是学术大数据应运而生。学术大数据中存在不同的学术主体以及它们之间形成的各种各样的学术关系,其中学者之间的合作关系最为普遍和重要,尤其在交叉学科问题的研究中,来自不同领域的学者之间的合作日益增多,这使得对于合作关系预测的研究变得越来越重要。但在现有的技术中,大多数解决方法都是基于同构信息网络的,而且预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。现有的科技情报挖掘和分析中的领域相关性预测问题,主要包括:(1)学术数据语料的收集;(2)基于深度学习的学术领域词向量模型训练;(3)相关领域的预测方法。现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低的问题。综上所述,现有技术存在的问题是:现有的学术领域相关 ...
【技术保护点】
1.一种基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:第一步,收集公开的通用数据、学术领域的论文和专利数据;第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量;第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。
【技术特征摘要】
1.一种基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:第一步,收集公开的通用数据、学术领域的论文和专利数据;第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量;第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。2.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据;在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略;对大规模持续爬取中的反爬策略采取购买匿名代理池的方式;公开的通用数据收集,爬取了基于英文维基百科的数据;经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别;在学术数据集上,从多个数据库中爬取降低收集的数据中的噪音。3.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型;模型中,每一个Trm是一个Transformer模型;通过遮挡语言模型MaskedLM和预测下一个句子两种方式进行模型训练;MaskedLM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理;在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇;原子词汇表示一个英文单词可以被切分的最小单元;将句子里面的词进行切分,然后在词表中找到该词对应的ID;BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。4.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256;对于每次输入的句子长度不足128时,进行补0处理;当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子;在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1;[PAD]是表示句子长度小于128时进行的补0操作;[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇;构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入;训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。5.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述Transformer编码是由12层Transformer组成;Transformer编码器内部是由多重注意力机制层和前馈层组成;层与层之间使用残差网络连接,并对每层的输出使用层正则化表示;多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如...
【专利技术属性】
技术研发人员:隗公程,万洪波,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。