一种科技新词识别方法及装置制造方法及图纸

技术编号:33531115 阅读:20 留言:0更新日期:2022-05-19 02:02
本发明专利技术实施例公开了一种科技新词识别方法和装置,通过爬取论文中的重点词汇信息,基于时间序列对重点词汇出现的频率变化趋势进行统计,按照预设阈值对重点词汇进行筛选,获取到科技新词,从而对科技动态和研究方向进行全面把握。本发明专利技术提供的方法和装置能够准确、高效获取科技新词,有效解决以往新词词库获取难的问题,同时减少大量人力和物力耗费,降低获取周期,为科技新词的获取提供新思路。为科技新词的获取提供新思路。为科技新词的获取提供新思路。

【技术实现步骤摘要】
一种科技新词识别方法及装置


[0001]本专利技术涉及大数据和信息
,特别是涉及一种科技新词识别方法及装置。

技术介绍

[0002]科技是推动现代生产力发展的重要力量,是经济快速增长的关键核心。当前,各领域新型技术层出不穷,科技发展日新月异,为抢占发展先机,引领科技方向,推进相关研究领域发展,及时发现与科技相关的新词显得尤为重要。
[0003]目前已有的新词发现方法主要集中在网络环境或者其他特定领域,实现方法主要分为以下两种:一是人为在文本中标注新词,再借助自然语言处理技术进行模型训练,在模型训练到一定准确度后,运用到新词发现中;二是提供新词发现的词库,按照词库中提供的新词,利用互联网大数据分析提取不断产生的热门新词。
[0004]但是,若要提高第一种方法获取新词的准确性,需要耗费大量的人力去寻找合适的文本进行标注以供训练,标注的内容需准确无误,否则会影响训练效果。并且,如果训练结果不理想,还需进行多次反复训练,周期较长;第二种方法基于词库,但新词是新出现的词汇,而词库中的已有的词汇不可能准确的预测到未来会出现的所有类型的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种科技新词识别方法,其特征在于,包括:获取预设论文数据库中每篇论文的重点词汇信息,所述重点词汇信息至少包括重点词汇和所述重点词汇对应的发表时间;将预设统计年限按照预设时间间隔划分为多个时间单元,利用每个重点词汇对应的发表时间,确定所述重点词汇在各个时间单元出现的频率及增长率;根据每个重点词汇对应的发表时间,以及在各个时间单元出现的频率和增长率,判定所述重点词汇是否为科技新词。2.根据权利要求1所述的方法,其特征在于,所述获取预设论文数据库中每篇论文的重点词汇信息,包括:获取预设论文数据库中每篇论文的重点信息,所述重点信息至少包括标题、关键词、摘要和发表时间;利用重点信息提取每篇论文中的重点词汇及所述重点词汇对应的发表时间。3.根据权利要求1所述的方法,其特征在于,所述将预设统计年限按照预设时间间隔划分为多个时间单元,利用每个重点词汇对应的发表时间,确定所述重点词汇在各个时间单元出现的频率及增长率,包括:以6个月为预设时间间隔,将每年划分为上半年和下半年,每半年为一个时间单元;将当前时刻所属时间单元之前的20个时间单元作为预设统计年限;针对每个重点词汇,均利用所述重点词汇对应的发表时间,确定所述重点词汇在预设统计年限内各个时间单元出现的频率;按照以下公式分别计算每个重点词汇在各个时间单元内的增长率;其中,R
im
为重点词汇i在第m个时间单元内的增长率,N
m
为重点词汇i在第m个时间单元内出现的频率,N
m
‑1为重点词汇i在第m

1个时间单元内出现的频率。4.根据权利要求1所述的方法,其特征在于,所述根据每个重点词汇对应的发表时间,以及在各个时间单元出现的频率和增长率,判定所述重点词汇是否为科技新词,包括:针对每一个重点词汇,均按照时间顺序判断是否存在所述重点词汇出现的频率大于预设频率阈值的时间单元;如果是,判断所述重点词汇在所述时间单元内的增长率是否大于预设增长率阈值,如果是,将所述重点词汇确定为所述时间单元的新词;在确定的新词中筛选出科技类的词汇,作为最终识别出的科技新词。5.根据权利要求4所述的方法,其特征在于,所述在确定的新词中筛选出科技类的词汇,作为最终识别出的科技新词,包括:根据预先获取的科技类词汇和非科技类词汇建立语料样本集合;利用BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征)模型对语料集合中的科技类词汇和非科技类词汇进行训练,分别得到科技类词汇的和非科技类词汇的样本特征;基于BERT模型依次判定每个新词是否属于科技类词汇,将属于科技类词汇的新词确定
为对应时间单元内的科技新词。6.一种科技新词识别装置,其特征在于,包括:重点词汇信息获取单元,用于获取预设论文数据库中每篇论文的重...

【专利技术属性】
技术研发人员:贾永芳刘东陈华雄王健韩霜艾静曹丽霄霍瞳刘烨殷广丽
申请(专利权)人:科技部科技评估中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1