【技术实现步骤摘要】
一种学者学术标签标注方法、装置和电子设备
[0001]本专利技术涉及自然语言处理
,尤其涉及一种学者学术标签标注方法、装置和电子设备。
技术介绍
[0002]为学者标注领域标签的方法有很多,其中以深度学习为核心算法的标签系统已经成为主流的智能化工具。基于深度学习的标签系统,是一种文本多标签分类模型。简单的做法是通过RNN,CNN等神经网络模型提取文本序列特征或者上下文特征,输出表示特征的向量表示,为下游其它任务作的特征化及向量化的工程。例如后续的分类任务,文本相似度任务等。
[0003]近些年,为了,更有针对性的解决实际问题,从而能够更有效更准确的利用神经网络进行性特征抽取和表示。产生了许多结构复杂,特点鲜明的神经网络模型,并且在这些模型的基础上又不断的衍生出新的网络结构。
[0004]但是这些算法模型普遍都是将学者的论文或者某一段或多段描述性文本组合在一起作为输入,这种方式的弊端是只采用了论文或者关键词等单一数据源,而且在这些算法中,大多是多篇论文文本组合为一个文本作为模型输入,这种方式会使得不同领域 ...
【技术保护点】
【技术特征摘要】
1.一种学者学术标签标注方法,其特征在于,包括:采用预设的多个筛选规则,从每种数据源中筛选出待标注学者的多个代表性数据;将所有的所述代表性数据输入标签模型中,对每个所述代表性数据分别进行特征提取并对提取到的多个特征进行融合,输出所述待标注学者的学术标签。2.如权利要求1所述的学者学术标签标注方法,其特征在于,所述数据包括论文、专利、科研项目和关键词。3.如权利要求1所述的学者学术标签标注方法,其特征在于,所述对每个所述代表性数据分别进行特征提取,具体为:对每个所述代表性数据并行进行特征提取。4.如权利要求1所述的学者学术标签标注方法,其特征在于,所述标签模型包括:输入层,用于输入所有的所述代表性数据;文本向量层,用于对输入的每个所述代表性数据分别进行编码,生成对应的文本向量;局部注意力层,用于利用局部注意力机制对每个所述文本向量进行特征提取,生成对应的局部注意力向量;全局注意力层,用于对所有的局部注意力向量进行拼接并利用全局注意力机制进行特征提取,生成全局注意力向量;特征提取层,用于对所述全局注意力向量进行特征提取,得到深度提取特征;标签分类层,用于对所述深度提取特征进行分类计算,得到各深度提取特征的概率值;输出层,用于根据各深度提取特征的概率值计算对应的标签并输出。5.如权利要求4所述的学者学术标签标注方法,其特征在于,所述对输入的每个所述代表性数据分别进行编码,具体为,对输入...
【专利技术属性】
技术研发人员:史小文,张鹏,唐杰,刘德兵,仇瑜,罗干,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。