基于自然语言的论文标签补充方法、装置及存储介质制造方法及图纸

技术编号:37259601 阅读:22 留言:0更新日期:2023-04-20 23:34
本申请实施例公开了一种基于自然语言的论文标签补充方法、装置、设备及存储介质,属于论文文本处理技术领域,该方法包括:获取待进行标签分类的科技文本资源;使用分层次选择方式进行分类标签选择,并获取分类标签集;基于词性分析方式,对分类标签集中元素进行扩充处理,并获取标签扩充集;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后标签扩充集中剩下的元素作为最终预测集;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中。本申请有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。提高论文分类标签的完善度和高适用性。提高论文分类标签的完善度和高适用性。

【技术实现步骤摘要】
基于自然语言的论文标签补充方法、装置及存储介质


[0001]本申请涉及论文文本处理
,尤其涉及一种基于自然语言的论文标签补充方法、装置、设备及存储介质。

技术介绍

[0002]随着时代的发展和进步,有许多源源不断的新事物或者新技术被人们所使用,研究学者在对新研究成果或者新事物分类归纳入库研究时,发现科技和科学类论文文本的分类和入库中,现有的分类标签种类已经不满足现有的新知识点。
[0003]目前,若再使用现有的分类种类,已经不足以表示对应学术论文的论点中心,因此,需要对现有分类库中标签种类进行优化,现有技术中标签优化采用的方式是通过查找全网点击率排行靠前的新词汇,并获取新出现的词汇,定时对分类库中标签种类进行更新,将新词汇加入到分类库中标签中。但是,这样盲目的加入新标签会造成太多垃圾标签的产生,既占用了分类标签的空间资源,又不能起到分类标签的实质性扩展作用。由此可知,目前在对原有分类标签进行更新维护时,盲目加入新标签,造成新标签扩充不严谨,适用性不强的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的论文标签补充方法,其特征在于,包括下述步骤:获取待进行标签分类的科技文本资源;使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中所述的分类标签选择步骤包括基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中所述的扩充处理步骤包括基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中所述预设的筛选方式包括基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中所述分类目标空间包括已经分类完成的若干文本资源和若干标签种类。2.根据权利要求1所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的层次分层方式将所述科技文本资源分成若干文本片段,包括:基于关键词或者段落标识将所述科技文本资源分成若干部分。3.根据权利要求2所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集,包括:以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询;使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。4.根据权利要求3所述的基于自然语言的论文标签补充方法,其特征在于,所述基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,包括:基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,...

【专利技术属性】
技术研发人员:郭东恩贾子琪周志强郭丰硕廖咏波吉康毅赵彤
申请(专利权)人:南阳理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1