当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于深度学习的参考文献自动标注方法及系统技术方案

技术编号:19903380 阅读:48 留言:0更新日期:2018-12-26 02:54
本发明专利技术公布了一种基于深度学习的参考文献自动标注方法及系统,通过分析文档内容,定位到文档中的参考文献区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动分段和标注,由此得到引文的元数据信息;包括:提取文档包含的所有的引文条目;训练基于深度学习的引文标注模型;对每一条引文利用训练好的引文标注模型进行标注,即完成文档的参考文献自动标注。本发明专利技术可取得更高的准确率,更易于扩展到新的领域和风格的参考文献上。

【技术实现步骤摘要】
一种基于深度学习的参考文献自动标注方法及系统
本专利技术涉及一种基于深度学习的参考文献自动标注方法。涉及机器学习、信息抽取等领域。
技术介绍
学术著作中包含了大量的参考文献,它们提供了若干关于被引用文献的元数据信息,体现了对他人研究成果的尊重,体现了学术研究的延续性。参考文献的引文中包含了作者、标题、出版者、年份、页码、卷期等字段的元数据信息。引文元数据在数字图书馆、学术信息检索、知识管理、语义网等领域具有重要的价值,是进行引用关系分析、主题发现等课题研究的基础。但引文本身是纯文本形式的字符串,即词、数字、标点和其他字符的序列,本身不具有结构化的信息,需要通过对引文进行标注,从中抽取出元数据信息。参考文献的自动标注具有很强的实用价值。例如,学术数据库每天会收录大量的新的学术著作。对于一篇新文献,它引用了很多学术数据库中已有的文献。为了在学术数据库中建立文献间的引用关系,需要对一篇文档的参考文献进行标注,发现并抽取引文的元数据,确定引文对应的参考文献,然后和数据库中的该文献建立引用关系。这一过程如果由人工的方式完成,工作量将会极其大,需要借助机器实现自动的抽取。此外,通过对参考文献的自本文档来自技高网...

【技术保护点】
1.一种基于深度学习的参考文献自动标注方法,通过分析文档内容,定位到文档中的参考文献区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动分段和标注,由此得到引文的元数据信息;包括如下步骤:1)通过分析文档内容,定位到文档中的参考文献区域,提取文档包含的所有的引文条目;2)使用带有标注的引文训练数据,预先训练基于深度学习的引文标注模型;具体执行如下操作:21)首先,从互联网上收集BibTeX数据并进行预处理;通过将BibTeX记录输出为不同风格的引文,并利用BibTeX记录中已知的引文字段和内容的键值对,生成引文的带有标注的训练数据;22)引文标注模型:采用序列标注网络架构,使用双向长短...

【技术特征摘要】
1.一种基于深度学习的参考文献自动标注方法,通过分析文档内容,定位到文档中的参考文献区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动分段和标注,由此得到引文的元数据信息;包括如下步骤:1)通过分析文档内容,定位到文档中的参考文献区域,提取文档包含的所有的引文条目;2)使用带有标注的引文训练数据,预先训练基于深度学习的引文标注模型;具体执行如下操作:21)首先,从互联网上收集BibTeX数据并进行预处理;通过将BibTeX记录输出为不同风格的引文,并利用BibTeX记录中已知的引文字段和内容的键值对,生成引文的带有标注的训练数据;22)引文标注模型:采用序列标注网络架构,使用双向长短期记忆单元LSTM自动抽取引文词序列中的深度特征;然后加入一个段分割的层,根据LSTM的输出预测每个时刻的片段标签,确定片段与前后时刻是否属于同一个片段;根据标签,通过段分割层的输出得到段的集合;然后对得到的段集合中每个段计算段特征,将段的序列送入条件随机场CRF中;使用条件随机场CRF预测标签;3)对步骤1)中提取到的所有引文条目,使用步骤2)中训练的引文标注模型,对每一条引文进行标注,即完成文档的参考文献自动标注。2.如权利要求1所述基于深度学习的参考文献自动标注方法,其特征是,在步骤2)和步骤3)中,将引文输入到引文标注模型中进行训练或进行标注,具体是将每条引文分离词和标点作为词序列送入引文标注模型。3.如权利要求1所述基于深度学习的参考文献自动标注方法,其特征是,在步骤2)和步骤3)中的引文标注模型,具体根据双向LSTM的输出h=(h1,h2,...,hT),将某个时刻t的输出ht送入softmax层,输出分别对应段开始B和段中间I;通过I、B的标签序列推断段的集合S=(S1,S2,...,SN),N表示段集合的大小;对集合S中的每个段计算段的特征;令hij表示段Si的第j个词,其中段Si的长度为li;则Si的段特征可以计算为段特征表示向量的拼接;将段特征的序列送入CRF,由CRF预测出段级别的标签序列。4.如权利要求3所述基于深度学习的参考文献自动标注方法,其特征是,引文标注模型包括分割和标注两个训练目标,分别对应分割损失和标注损失两部分;模型的损失函数是分割损失和标记损失的加权和。5.如权利要求1所述基于深度学习的参考文献自动标注方法,其特征是,步骤1)提取文档包含的...

【专利技术属性】
技术研发人员:高良才安东汤帜
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1