一种学者学术标签标注方法、装置和电子设备制造方法及图纸

技术编号:27319187 阅读:28 留言:0更新日期:2021-02-10 09:57
本发明专利技术公开了一种学者学术标签标注方法、装置和电子设备。该方法包括:首先从多种数据源中使用多种筛选规则筛选出代表性数据,然后将所有的代表性数据输入标签模型中,对每个代表性数据分别进行特征提取并对提取到的多个特征进行融合,输出所述待标注学者的学术标签。通过采用多个筛选规则选取输入,提高了标注准确率;利用标签模型首先对各代表性的数据分别提取特征,再对提取到的多个特征进行特征融合,使最后提取的特征不仅包含所研究的主要的领域,还包含这些领域在学者研究生涯中的重要程度信息;另外,学者学术标签标注过程中融合了多种数据源的信息,所以,可以使模型能够全面准确的标注学者研究领域。全面准确的标注学者研究领域。全面准确的标注学者研究领域。

【技术实现步骤摘要】
一种学者学术标签标注方法、装置和电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种学者学术标签标注方法、装置和电子设备。

技术介绍

[0002]为学者标注领域标签的方法有很多,其中以深度学习为核心算法的标签系统已经成为主流的智能化工具。基于深度学习的标签系统,是一种文本多标签分类模型。简单的做法是通过RNN,CNN等神经网络模型提取文本序列特征或者上下文特征,输出表示特征的向量表示,为下游其它任务作的特征化及向量化的工程。例如后续的分类任务,文本相似度任务等。
[0003]近些年,为了,更有针对性的解决实际问题,从而能够更有效更准确的利用神经网络进行性特征抽取和表示。产生了许多结构复杂,特点鲜明的神经网络模型,并且在这些模型的基础上又不断的衍生出新的网络结构。
[0004]但是这些算法模型普遍都是将学者的论文或者某一段或多段描述性文本组合在一起作为输入,这种方式的弊端是只采用了论文或者关键词等单一数据源,而且在这些算法中,大多是多篇论文文本组合为一个文本作为模型输入,这种方式会使得不同领域的文本混合后在模型计本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种学者学术标签标注方法,其特征在于,包括:采用预设的多个筛选规则,从每种数据源中筛选出待标注学者的多个代表性数据;将所有的所述代表性数据输入标签模型中,对每个所述代表性数据分别进行特征提取并对提取到的多个特征进行融合,输出所述待标注学者的学术标签。2.如权利要求1所述的学者学术标签标注方法,其特征在于,所述数据包括论文、专利、科研项目和关键词。3.如权利要求1所述的学者学术标签标注方法,其特征在于,所述对每个所述代表性数据分别进行特征提取,具体为:对每个所述代表性数据并行进行特征提取。4.如权利要求1所述的学者学术标签标注方法,其特征在于,所述标签模型包括:输入层,用于输入所有的所述代表性数据;文本向量层,用于对输入的每个所述代表性数据分别进行编码,生成对应的文本向量;局部注意力层,用于利用局部注意力机制对每个所述文本向量进行特征提取,生成对应的局部注意力向量;全局注意力层,用于对所有的局部注意力向量进行拼接并利用全局注意力机制进行特征提取,生成全局注意力向量;特征提取层,用于对所述全局注意力向量进行特征提取,得到深度提取特征;标签分类层,用于对所述深度提取特征进行分类计算,得到各深度提取特征的概率值;输出层,用于根据各深度提取特征的概率值计算对应的标签并输出。5.如权利要求4所述的学者学术标签标注方法,其特征在于,所述对输入的每个所述代表性数据分别进行编码,具体为,对输入...

【专利技术属性】
技术研发人员:史小文张鹏唐杰刘德兵仇瑜罗干
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1