引用文献识别方法及装置制造方法及图纸

技术编号:38418863 阅读:25 留言:0更新日期:2023-08-07 11:20
本发明专利技术提供一种引用文献识别方法及装置,引用文献识别方法包括:将目标文本输入引用文献识别模型,得到所述引用文献识别模型输出的对所述目标文本中的参考文献的标记结果,所述引用文献识别模型是基于双向长短期记忆BiLSTM和条件随机场CRF算法构建,并基于训练样本训练得到的,所述训练样本包括文本样本和与所述文本样本对应的标注样本,所述标注样本是通过标注工具对所述文本样本进行参考文献标记得到的,实现准确高效的提取文本中的参考文献。文献。文献。

【技术实现步骤摘要】
引用文献识别方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种引用文献识别方法及装置。

技术介绍

[0002]将科学界与工业界是进行相互联系,以及运用科学知识为技术发展以及社会进步提供有效帮助,现已被公认是各国经济增长、创新力和竞争力表现的关键。长期以来,知识流被认为是企业创新的关键决定因素,文献的引用则被广泛用于衡量来自大学的科学基础研究之间的相互作用。
[0003]例如,在专利文献中,公开现有技术只是为了澄清本专利技术的专利技术步骤,因此并不一定标明科学来源,作为现有技术公开的专利引文必然是不完整的。以参考为基础的指标正在被越来越多地用于测量和评估科学技术互动。参考文献(nonpatent reference,NPR)不仅展示了技术发展对科学知识的依赖程度,也展示了创新能力和基础知识的来源。因此,为了快速并且准确的获取大量专利中NPRs,有很多学者结合了目前发展迅速、使用广泛的机器学习等相关技术对引用进行标记和提取。
[0004]因此,如何准确高效的提取文本中的参考文献是亟待解决的问题。
专利技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种引用文献识别方法,其特征在于,包括:将目标文本输入引用文献识别模型,得到所述引用文献识别模型输出的对所述目标文本中的参考文献的标记结果;所述引用文献识别模型是基于双向长短期记忆BiLSTM和条件随机场CRF算法构建,并基于训练样本训练得到的,所述训练样本包括文本样本和与所述文本样本对应的标注样本,所述标注样本是通过标注工具对所述文本样本进行参考文献标记得到的。2.根据权利要求1所述的引用文献识别方法,其特征在于,所述将目标文本输入引用文献识别模型前,所述方法还包括:通过起始中间结尾BIO标注,为所述训练样本中的所述文本样本和所述标注样本中的各个单词加上类型标签,得到带有标签的语句;基于BiLSTM和CRF算法,采用至少两种词嵌入方式构建训练前的引用文献识别模型;从所述带有标签的语句中选取测试数据集和训练数据集,对所述训练前的引用文献识别模型进行训练,得到所述引用文献识别模型。3.根据权利要求2所述的引用文献识别方法,其特征在于,所述通过起始中间结尾BIO标注为所述训练样本中的所述文本样本和所述标注样本中的各个单词加上类型标签,得到带有标签的语句,包括:将所述训练样本中的所述文本样本和所述标注样本进行分词,得到各个单词,并对每个单词进行词性标注,得到标注后的序列;通过BIO标记的方式对所述标注后的序列中各个单词进行类型标签的添加,得到与所述文本样本和所述标注样本对应的BIO文件,所述BIO文件中包括所述带有标签的语句。4.根据权利要求2所述的引用文献识别方法,其特征在于,所述从所述带有标签的语句中选取训练数据集和测试数据集对所述训练前的引用文献识别模型进行训练,得到所述引用文献识别模型,包括:基于留一交叉验证方法对所述带有标签的语句进行拆分,得到训练数据集和测试数据集;对所述训练数据集进行特征提取,基于对所述训练数据集的特征提取的结果对所述训练前的引用文献识别模型进行至少三种迭代方式的训练;对所述测试数据集进行特征提取,基于所述测试数据集的特征提取结果对所述训练前的引用文献识别模型进行测试;在测试的次数达到预设次数的情况下,保存当前的模型参数,得到所述引用文献识别模型。5.一种引用文献识别装置,其特征在于,包括:文献识别模块,用于将目标文本输入引用文献识别模型,得到所述引用文献识别模型输出的对所述目标文本中的参考文献的标...

【专利技术属性】
技术研发人员:徐元敏
申请(专利权)人:中银金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1