System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【】本申请涉及深度学习和信息处理,尤其涉及一种引文信息实体抽取方法、装置、设备及介质。
技术介绍
0、
技术介绍
1、引文信息是指在文献中用于引用或参考其他文献的内容,通常包括但不限于文献之间的引用关系、作者的合著情况、期刊的相互引用等,对于科研管理、学术评估、学科建设等方面具有重要意义。
2、引文信息实体抽取是信息处理领域中的一个重要分支,引文信息实体抽取是指从引文信息中提取出关键实体,如文献题名、作者、期刊等信息的过程;这些实体是引文信息的重要组成部分,在学术引用分析、学术水平评估、知识发现、文献推荐等方面有着诸多应用。然而,目前引文信息实体抽取面临着众多挑战,如引文信息表达方式多样,引文格式和内容不准确或不完整,不同文献类型使用不同风格的表述方式等,大大增加了引文信息实体抽取的难度。
技术实现思路
0、
技术实现思路
1、本申请实施例提供了一种引文信息实体抽取方法、装置、设备及介质,旨在解决相关技术中引文信息实体抽取的难度较大等技术问题。
2、第一方面,本申请实施例提供了一种引文信息实体抽取方法,包括:
3、获取引文数据的样本数据集,其中,所述样本数据集包括至少一个原始引文数据和对应的引文实体项;
4、采用样本数据集对预设的深度学习引文分块模型进行训练,得到训练后的目标引文分块模型;
5、利用所述目标引文分块模型输出的引文分块数据对预设的深度学习引文分类模型进行训练,得到训练后的目标引文分
6、获取待处理的原始引文数据,并通过所述目标引文分块模型和所述目标引文分类模型进行处理,以从所述待处理的原始引文数据中抽取引文信息实体,得到目标引文实体项结果;
7、输出所述目标引文实体项结果。
8、在一个实施例中,可选的,在采用样本数据集对预设的深度学习引文分块模型进行训练之前,所述方法还包括:
9、对所述样本数据集中的各个原始引文数据进行预处理,以确定每个引文实体项在原始引文数据中的目标位置。
10、在一个实施例中,可选的,对所述样本数据集中的各个原始引文数据进行预处理,以确定每个引文实体项在原始引文数据中的目标位置,包括:
11、获取各个原始引文数据中各个符号所在的第一位置索引值,并记录在位置数组中;
12、去除所述各个原始引文数据和引文实体项中的符号,以得到处理后的原始引文数据和处理后的引文实体项;
13、获取处理后的引文实体项在所述处理后的原始引文数据中的第二位置索引值,并记录在数据索引中,其中,所述第二位置索引值用于表征所述处理后的引文实体项在所述处理后的原始引文数据中的起始位置;
14、分别取其中的第一位置索引值与所述数据索引中的第二位置索引值进行对比,响应于所述第一位置索引值小于所述第二位置索引值,为所述第二位置索引值加1,以确定所述引文实体项在所述原始引文数据中的实际起始位置;
15、对所述位置数组中的各第一位置索引值进行排序,将所述位置数组中的各个第一位置索引值分别减去其数组下标,以确定每个符号在处理后的原始引文数据中的第三位置索引值;
16、获取处理后的引文实体项的字符串长度;
17、根据所述第二位置索引值和所述字符串长度,确定所述处理后的引文实体项在所述处理后的原始引文数据中的结束位置;
18、确定所有第三位置索引值中处于所述起始位置和所述结束位置所在区间的第一个数;
19、根据所述结束位置和所述第一个数,确定所述引文实体项在所述原始引文数据中的实际结束位置;
20、根据所述实际起始位置和所述实际结束位置,确定所述引文实体项的目标位置。
21、在一个实施例中,可选的,所述预设的深度学习引文分块模型包括依次设置的神经网络层、bi-gru层和crf层;
22、通过所述神经网络层从各原始引文数据中获取不同长度的原始引文特征;
23、通过所述bi-gru层对所述不同长度的原始引文特征进行语义解析,得到语义解析结果;
24、通过所述crf层对所述语义解析结果进行上下文关联确定,并根据上下文关联确定结果对所述原始引文数据进行分隔点的标注,得到分块后的引文实体数据。
25、在一个实施例中,可选的,预设的深度学习引文分类模型包括:目标bert模型、自注意力机制层和crf层,所述方法还包括:
26、使用所述分块后的引文实体数据对预设bert模型进行训练,得到目标bert模型;
27、使用所述分块后的引文实体数据对所述预设的深度学习引文分类模型进行训练,得到所述目标引文分类模型。
28、在一个实施例中,可选的,通过所述目标引文分块模型和所述目标引文分类模型进行处理,以从所述待处理的原始引文数据中抽取引文信息实体,得到目标引文实体项结果,包括:
29、对所述待处理的原始引文数据进行预处理,得到目标原始引文数据;
30、通过所述目标引文分块模型对所述目标原始引文数据进行分块,生成目标引文分块数据;
31、通过所述目标引文分类模型对所述目标引文分块数据进行分类识别,以抽取出目标引文信息实体,得到目标引文实体项结果。
32、在一个实施例中,可选的,输出所述目标引文实体项结果,包括:
33、按照预设校验规则对所述目标引文实体项结果进行校验;
34、对于校验通过的目标引文实体项结果,通过json格式进行输出和存储。
35、第二方面,本申请实施例提供了一种引文信息实体抽取装置,包括:
36、获取模块,用于获取引文数据的样本数据集,其中,所述样本数据集包括至少一个原始引文数据和对应的引文实体项;
37、第一训练模块,用于采用样本数据集对预设的深度学习引文分块模型进行训练,得到训练后的目标引文分块模型;
38、第二训练模块,用于利用所述目标引文分块模型输出的引文分块数据对预设的深度学习引文分类模型进行训练,得到训练后的目标引文分类模型;
39、抽取模块,用于获取待处理的原始引文数据,并通过所述目标引文分块模型和所述目标引文分类模型进行处理,以从所述待处理的原始引文数据中抽取引文信息实体,得到目标引文实体项结果;
40、输出模块,用于输出所述目标引文实体项结果。
41、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述引文信息实体抽取方法的步骤。
42、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述引文信息实体抽取方法的步骤。
43、以上引文信息实体抽取方法、装置、设备及介质所实现的方案中,获取引文数据的样本数据集,其中,所述样本数据集包括至少一个原始引文本文档来自技高网...
【技术保护点】
1.一种引文信息实体抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在采用样本数据集对预设的深度学习引文分块模型进行训练之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,对所述样本数据集中的各个原始引文数据进行预处理,以确定每个引文实体项在原始引文数据中的目标位置,包括:
4.根据权利要求1所述的方法,其特征在于,所述预设的深度学习引文分块模型包括依次设置的神经网络层、Bi-GRU层和CRF层;
5.根据权利要求4所述的方法,其特征在于,预设的深度学习引文分类模型包括:目标Bert模型、自注意力机制层和CRF层,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,通过所述目标引文分块模型和所述目标引文分类模型进行处理,以从所述待处理的原始引文数据中抽取引文信息实体,得到目标引文实体项结果,包括:
7.根据权利要求1所述的方法,其特征在于,输出所述目标引文实体项结果,包括:
8.一种引文信息实体抽取装置,其特征在于,包括:
9.一种计算机设
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种引文信息实体抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在采用样本数据集对预设的深度学习引文分块模型进行训练之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,对所述样本数据集中的各个原始引文数据进行预处理,以确定每个引文实体项在原始引文数据中的目标位置,包括:
4.根据权利要求1所述的方法,其特征在于,所述预设的深度学习引文分块模型包括依次设置的神经网络层、bi-gru层和crf层;
5.根据权利要求4所述的方法,其特征在于,预设的深度学习引文分类模型包括:目标bert模型、自注意力机制层和crf层,所述...
【专利技术属性】
技术研发人员:张亚标,段莫凡,李愿军,张镔,徐乾,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。