参考文献的识别方法及识别装置制造方法及图纸

技术编号:19320229 阅读:28 留言:0更新日期:2018-11-03 10:50
本发明专利技术提供了一种参考文献的识别方法及识别装置。其中,一种参考文献的识别方法,包括:创建用于模型训练的训练集;根据训练集,采用stanford‑ner开源库训练参考文献识别模型;根据参考文献识别模型,自动识别参考文献。通过本发明专利技术的技术方案,实现了自动识别参考文献,方便、快捷,从而为科技工作者带来了极大的便利,有助于提高工作效率。

Identification method and identification device of references

The invention provides a reference document recognition method and a recognition device. Among them, a method of reference recognition includes: creating training set for model training; using Stanford ner open source library to train reference recognition model according to training set; and automatically identifying reference according to reference recognition model. Through the technical scheme of the invention, the automatic identification of references is realized, which is convenient and fast, thus bringing great convenience to scientific and technological workers and helping to improve work efficiency.

【技术实现步骤摘要】
参考文献的识别方法及识别装置
本专利技术涉及人工智能
,具体而言,涉及一种参考文献的识别方法,还涉及一种参考文献的识别装置。
技术介绍
参考文献是对期刊论文引文进行统计和分析的重要信息源之一,是科技论文中的重要组成部分,反映论文作者的科学态度和论文具有真实、广泛的科学依据,也反映出该论文的起点和深度,能方便地把论文作者的成果与他人的成果区别开来,体现自身研究的创新性和创造性,由此参考文献的识别变得十分必要,而目前相关技术对于参考文献的识别大多为手工标注,过程十分繁琐。因此,如何提供一种参考文献的智能识别方法,成为目前亟待解决的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出了一种参考文献的识别方法。本专利技术的另一个目的在于提出了一种参考文献的识别装置。有鉴于此,本专利技术提出了一种参考文献的识别方法,包括:创建用于模型训练的训练集;根据训练集,采用stanford-ner开源库训练参考文献识别模型;根据参考文献识别模型,自动识别参考文献。根据本专利技术的参考文献的识别方法,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。另外,根据本专利技术上述的参考文献的识别方法,还可以具有如下附加的技术特征:在上述技术方案中,优选地,创建用于模型训练的训练集的具体步骤,包括:对多条参考文献按类别进行手工标注;对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集。在该技术方案中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。在上述任一技术方案中,优选地,对多条参考文献按类别进行手工标注,具体包括:手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。在该技术方案中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。在上述任一技术方案中,优选地,对标注后的多条参考文献进行数据格式的训练,具体包括:将参考文献中每个单词独立成行,Tab后跟类别的标注符号。在该技术方案中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。在上述任一技术方案中,优选地,还包括:根据训练集,采用stanford-ner开源库训练参考文献识别模型的具体步骤,包括:设置配置文件,配置文件用于配置参考文献识别模型的参数;按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数。在该技术方案中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。本专利技术还提出一种参考文献的识别装置,包括:训练集创建单元,用于创建用于模型训练的训练集;模型创建单元,用于根据训练集,采用stanford-ner开源库训练参考文献识别模型;识别单元,根据参考文献识别模型,自动识别参考文献。根据本专利技术的参考文献的识别装置,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。另外,根据本专利技术上述的参考文献的识别装置,还可以具有如下附加的技术特征:在上述技术方案中,优选地,训练集创建单元,具体包括:标注单元,用于对多条参考文献按类别进行手工标注;格式训练单元,用于对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集。在该技术方案中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。在上述任一技术方案中,优选地,标注单元,具体用于:手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。在该技术方案中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。在上述任一技术方案中,优选地,格式训练单元,具体用于:将参考文献中每个单词独立成行,Tab后跟类别的标注符号。在该技术方案中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。在上述任一技术方案中,优选地,模型创建单元,具体用于:设置配置文件,配置文件用于配置参考文献识别模型的参数;按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数。在该技术方案中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。本专利技术的附加方面和优点将在下面的描述部分本文档来自技高网...

【技术保护点】
1.一种参考文献的识别方法,其特征在于,包括:创建用于模型训练的训练集;根据所述训练集,采用stanford‑ner开源库训练参考文献识别模型;根据所述参考文献识别模型,自动识别所述参考文献。

【技术特征摘要】
1.一种参考文献的识别方法,其特征在于,包括:创建用于模型训练的训练集;根据所述训练集,采用stanford-ner开源库训练参考文献识别模型;根据所述参考文献识别模型,自动识别所述参考文献。2.根据权利要求1所述的参考文献的识别方法,其特征在于,所述创建用于模型训练的训练集的具体步骤,包括:对多条所述参考文献按类别进行手工标注;对标注后的多条所述参考文献进行数据格式的训练;将所述数据格式训练完成后的多条所述参考文献作为所述训练集。3.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对多条所述参考文献按类别进行手工标注,具体包括:手工标注所述参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注所述姓,N标注所述名,O表示未标注,SOURCE标注所述来源,TITLE标注所述标题,VOLUME标注所述卷号,PUBLICATIONNUM标注所述刊号,PAGENUM标注所述起始终至页码。4.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对标注后的多条所述参考文献进行数据格式的训练,具体包括:将所述参考文献中每个单词独立成行,Tab后跟所述类别的标注符号。5.根据权利要求1所述的参考文献的识别方法,其特征在于,所述根据所述训练集,采用stanford-ner开源库训练参考文献识别模型的具体步骤,包括:设置配置文件,所述配置文件用于配置所述参考文献识别模型的参数;按照所述stanford-ner开源库的程序算法,执行模型训练命令,并根据所述训练集不断调...

【专利技术属性】
技术研发人员:殷延伟严昌华
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1