System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种科技文献类目自动映射模型训练与预测方法技术_技高网

一种科技文献类目自动映射模型训练与预测方法技术

技术编号:40651657 阅读:3 留言:0更新日期:2024-03-13 21:29
本发明专利技术公开一种科技文献类目自动映射模型训练与预测方法,训练方法步骤为:构造IPC类目与高关联CLC类目数据集作为训练集;将训练集内样本输入预训练语言模型中,获取语义表示向量;使用点积注意力计算语义表示向量获得交互表示向量;将语义表示向量和交互表示向量进行融合输出增强表示向量;将增强表示向量进行池化后输入至前馈神经网络计算概率,将最大概率所在的类别作为预测类别;通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明专利技术的有益效果是:所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种科技文献类目自动映射模型训练与预测方法


技术介绍

1、在科技文献中,专利和图书期刊分别是产业界与学术界的科技创新信息来源,专利通常使用国际专利分类法(ipc)标识,而中文图书期刊则采用中国图书馆分类法(clc)分类,建立ipc类目与clc类目之间的映射有助于促进专利信息和图书期刊资源的整合和共享,对于知识的交叉应用和跨领域合作、推动科技创新和技术转化具有重要意义。

2、建立不同分类法的映射主要有人工标注和自动映射方法,人工标注尽管准确率高,但是人力成本高、时间周期长。随着计算机技术和人工智能的飞速发展,自动映射方法逐渐成为人工标注的有效替代。其中,基于深度神经网络的ipc类目与clc类目自动映射方法是当前研究的主流方向。

3、目前行业中都将类目自动映射转换为二分类问题,即判断给定的类目描述文本和另一分类法类目描述文本是否对应表达同一科学概念。然而,在实际应用中,给定一个ipc类目,要找到对应的clc类目,需要遍历整个clc分类体系,准确定位到其所映射的clc叶子类目。由于同一根节点下clc叶子类目文本描述差异很小,概念非常相似。因此,ipc类目与高关联的clc类目自动映射是其中一个重要的挑战,本技术能够解决这一问题。


技术实现思路

1、针对现有技术的不足,本专利技术的目的在于提供一种科技文献类目自动映射模型训练与预测方法,解决实际应用场景难以准确建立映射的问题。

2、本专利技术采用的技术方案如下:一种科技文献类目自动映射模型训练方法,基于ipc类目与高关联的clc类目自动映射模型训练,其步骤如下:

3、步骤s1,构造ipc类目与高关联clc类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由ipc类目描述文本、clc类目描述文本和ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签组成,ipc类目描述文本和clc类目描述文本均是类目层级文本之间用分号连接形成的一条句子;

4、步骤s2,将处理后的训练集内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量,分为ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量;

5、步骤s3,使用点积注意力计算步骤s2中ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;

6、步骤s4,将步骤s2中语义表示向量和步骤s3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;

7、步骤s5,将步骤s4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;

8、步骤s6,根据步骤s5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤s1中训练集上ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化ipc类目与高关联clc类目自动映射模型的参数,以得到训练后的ipc类目与高关联clc类目自动映射模型。

9、进一步的,步骤s1中构造ipc类目与高关联clc类目数据集,具体为:

10、步骤s11,获取公开的ipc类目与clc类目完全映射的数据集,数据集中每个样本是由一个ipc类目描述文本和与ipc类目描述文本存在映射关系的clc类目描述文本组成,即只存在正样本;

11、步骤s12,步骤s11中数据集拆分为ipc类目描述文本与clc类目描述文本,通过回溯获取每个ipc类目的类目号和对应的一个或者多个clc类目的类目号关系字典;

12、步骤s13,对具有相同前缀的ipc类目号进行分组,获得分组字典;

13、步骤s14,遍历所有的ipc类目,对步骤s13的分组字典中对应的clc类目进行过滤,通过判断条件,确立与步骤s12中存在映射关系的ipc类目号高度相似的clc类目号;高度相似的clc类目号对应的类目描述文本与步骤s12中ipc类目描述文本不存在映射关系,即获得负样本;

14、步骤s15,组合负样本和公开的ipc类目与clc类目完全映射的数据集,构成ipc类目与高关联的clc类目数据集。

15、进一步的,步骤s2中处理后的训练集内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量,具体为:

16、给定训练集中一个样本 d=( s ipc, s clc, y),其中 d表示一个训练样本,  s ipc表示ipc类目描述文本, s clc表示clc类目描述文本,  y表示ipc类目与clc类目是否存在映射关系, y值为0或1;

17、将ipc类目描述文本 s ipc和clc类目描述文本 s clc使用bpe子词切分方法进行子词切分,分别得到包含 n个子词和 m个子词的子词序列:

18、;

19、;

20、其中,表示ipc类目描述文本切分后的第1个子词,表示ipc类目描述文本切分后的第2个子词,表示ipc类目描述文本切分后的第n个子词,表示clc类目描述文本切分后的第1个子词,表示clc类目描述文本切分后的第2个子词,表示clc类目描述文本切分后的第m个子词; n和 m分别指ipc类目描述文本和clc类目描述文本子词切分后包含的子词个数;

21、将类目描述文本切分后的子词序列依次输入预训练语言模型bert中,获得每个子词的语义表示向量,见公式(1)和公式(2):

22、(1);

23、(2);

24、其中, v ipc和 v clc分别表示ipc类目描述文本和clc类目描述文本的语义表示向量,表示ipc类目描述文本第1个子词、第2个子词和第n本文档来自技高网...

【技术保护点】

1.一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其特征在于:步骤如下:

2.根据权利要求1所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S1中构造IPC类目与高关联CLC类目数据集,具体为:

3.根据权利要求2所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:

4.根据权利要求3所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;

5.根据权利要求4所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;

6.根据权利要求5所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;

7.根据权利要求6所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S6中交叉熵损失见公式(14)所示;

8.一种科技文献类目自动映射模型预测方法,应用于权利要求7所述的科技文献类目自动映射模型训练方法,其特征在于:包括:

9.一种科技文献类目自动映射模型的训练装置,应用于权利要求7所述的科技文献类目自动映射模型训练方法,其特征在于:包括:

10.一种科技文献类目自动映射模型的预测装置,应用于权利要求9所述的科技文献类目自动映射模型的训练装置,其特征在于:包括:

...

【技术特征摘要】

1.一种科技文献类目自动映射模型训练方法,基于ipc类目与高关联的clc类目自动映射模型训练,其特征在于:步骤如下:

2.根据权利要求1所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤s1中构造ipc类目与高关联clc类目数据集,具体为:

3.根据权利要求2所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤s2中处理后的训练集内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量,具体为:

4.根据权利要求3所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤s3中使用点积注意力计算步骤s2中ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;

5.根据权利要求4所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤s4中将步骤s2中语义表示向量和步骤s3中交互表示向量进行融合,依次输入前馈神经网...

【专利技术属性】
技术研发人员:李茂西黄敏
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1