The invention provides a reference document recognition method and a recognition device. Among them, a method of reference recognition includes: creating training set for model training; using Stanford ner open source library to train reference recognition model according to training set; and automatically identifying reference according to reference recognition model. Through the technical scheme of the invention, the automatic identification of references is realized, which is convenient and fast, thus bringing great convenience to scientific and technological workers and helping to improve work efficiency.
【技术实现步骤摘要】
参考文献的识别方法及识别装置
本专利技术涉及人工智能
,具体而言,涉及一种参考文献的识别方法,还涉及一种参考文献的识别装置。
技术介绍
参考文献是对期刊论文引文进行统计和分析的重要信息源之一,是科技论文中的重要组成部分,反映论文作者的科学态度和论文具有真实、广泛的科学依据,也反映出该论文的起点和深度,能方便地把论文作者的成果与他人的成果区别开来,体现自身研究的创新性和创造性,由此参考文献的识别变得十分必要,而目前相关技术对于参考文献的识别大多为手工标注,过程十分繁琐。因此,如何提供一种参考文献的智能识别方法,成为目前亟待解决的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出了一种参考文献的识别方法。本专利技术的另一个目的在于提出了一种参考文献的识别装置。有鉴于此,本专利技术提出了一种参考文献的识别方法,包括:创建用于模型训练的训练集;根据训练集,采用stanford-ner开源库训练参考文献识别模型;根据参考文献识别模型,自动识别参考文献。根据本专利技术的参考文献的识别方法,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。另外,根据本专利技术上述的参考 ...
【技术保护点】
1.一种参考文献的识别方法,其特征在于,包括:创建用于模型训练的训练集;根据所述训练集,采用stanford‑ner开源库训练参考文献识别模型;根据所述参考文献识别模型,自动识别所述参考文献。
【技术特征摘要】
1.一种参考文献的识别方法,其特征在于,包括:创建用于模型训练的训练集;根据所述训练集,采用stanford-ner开源库训练参考文献识别模型;根据所述参考文献识别模型,自动识别所述参考文献。2.根据权利要求1所述的参考文献的识别方法,其特征在于,所述创建用于模型训练的训练集的具体步骤,包括:对多条所述参考文献按类别进行手工标注;对标注后的多条所述参考文献进行数据格式的训练;将所述数据格式训练完成后的多条所述参考文献作为所述训练集。3.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对多条所述参考文献按类别进行手工标注,具体包括:手工标注所述参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注所述姓,N标注所述名,O表示未标注,SOURCE标注所述来源,TITLE标注所述标题,VOLUME标注所述卷号,PUBLICATIONNUM标注所述刊号,PAGENUM标注所述起始终至页码。4.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对标注后的多条所述参考文献进行数据格式的训练,具体包括:将所述参考文献中每个单词独立成行,Tab后跟所述类别的标注符号。5.根据权利要求1所述的参考文献的识别方法,其特征在于,所述根据所述训练集,采用stanford-ner开源库训练参考文献识别模型的具体步骤,包括:设置配置文件,所述配置文件用于配置所述参考文献识别模型的参数;按照所述stanford-ner开源库的程序算法,执行模型训练命令,并根据所述训练集不断调...
【专利技术属性】
技术研发人员:殷延伟,严昌华,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。