System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体涉及一种复杂样本的关系抽取方法、系统、设备及介质。
技术介绍
1、关系抽取任务是构建产品、用户、交易等图谱数据和知识库数据的关键环节,通过图谱和知识库为推荐系统、搜索优化、用户行为分析等提供支持,尤其是在电商领域,电商数据包含大量的产品描述、用户评价和交易记录,电商数据的多样性和复杂性给关系抽取任务增加了难度。
2、早期的关系抽取任务依赖于手工编写的规则和模板,但在面对大规模和多样化的电商数据时往往表现不佳,随着机器学习的发展,基于特征工程的方法开始被应用于关系抽取任务中,但仍需要专家知识来提取有效特征,因此选择深度学习-神经网络模型可以自动学习数据特征,减少对人工特征工程的依赖。
3、然而,目前轻量级深度学习模型虽然在处理大规模数据时具有高效性的特点,但在识别和处理数据中的复杂样本时仍存在局限性,特别是电商数据中存在有大量的非标准表达和隐晦语义关系的复杂样本,目前的轻量级深度学习模型无法满足高效且泛化地识别复杂样本的高要求。
4、因此,目前亟需一种复杂样本的关系抽取方法以解决上述模型无法高效准确处理复杂样本数据的问题。
技术实现思路
1、针对现有技术的不足,本专利技术提出一种复杂样本的关系抽取方法、系统、设备及介质。
2、本专利技术第一方面公开了一种复杂样本的关系抽取方法,包括:
3、s1:获取样本数据,对所述样本数据进行预处理;
4、s2:采用bert模型作为语言编码器构建关
5、s3:通过所述关系抽取模型对样本数据进行初预测,输出识别错误的样本标记为复杂样本,并通过所述复杂样本构建正负样本集,采用对比学习训练法和反向传播优化对样本数据进行加强训练直至收敛;
6、s4:构建所述关系抽取模型的评价指标体系,通过所述评价指标体系综合评估关系抽取模型的性能。
7、在一个可选的实施例中,所述对所述样本数据进行预处理包括:
8、s11:通过分词器对所述样本数据进行分词处理,将文本句段分解为字词单元;
9、s12:识别样本数据中文本句段的头实体和尾实体,并基于字符索引对分词处理后的文本句段进行头实体和尾实体的位置标注;
10、s13:获取停用词清单,通过所述停用词清单移除样本数据中语义贡献度低于阈值的字词单元;
11、s14:根据所述关系抽取模型的输入要求,对所述样本数据中的文本句段进行长度标准化处理。
12、在一个可选的实施例中,所述对所述关系抽取模型进行微调优化包括:
13、s21:基于历史样本数据更新所述关系抽象模型的预训练权重;
14、s22:在所述样本数据的序列开头插入用于分类相关任务的分类token,以及在句段末尾插入用于分割不同句子的分割token;
15、s23:将描述实体关系模板的进行拼接,通过prompt指令将关系抽取任务转化为填空任务进行关系预测;
16、s24:构建填空任务中关系预测词和特殊token的标签映射,通过所述标签映射表示预测词表达实体间的关系;
17、s25:预设所述关系抽取模型的学习率、数据批量以及训练周期,通过交叉熵损失函数对所述关系抽取模型的微调过程进行训练直至模型收敛。
18、在一个可选的实施例中,所述通过所述复杂样本构建正负样本集包括:
19、s31:遍历全部复杂样本,对于每一个复杂样本选择同所述复杂样本具备相同关系类型且关系预测正确的样本作为正样本;
20、s32:对于每一个复杂样本选择同所述复杂样本具备不同关系类型的样本作为负样本。
21、在一个可选的实施例中,所述采用对比学习训练法和反向传播优化对样本数据进行加强训练直至收敛包括:
22、s33:通过所述关系抽取模型获取每一个样本的特征表示;
23、s34:通过余弦相似度计算所述正样本对以及负样本对之间的特征表示距离;
24、s35:采用对比学习损失函数最小化正样本对之间的特征表示距离,以及通过对比学习损失函数最大化负样本之间的特征表示距离;
25、s36:采用adam优化器通过反向传播对复杂样本进行加强训练直至对比损失函数收敛。
26、在一个可选的实施例中,所述对比学习损失函数的表达式为:
27、
28、其中,表示对比学习损失,l(θ,y,si,sj)表示基于参数模型θ、输出张量y、正样本对si以及负样本对sj的损失函数,m表示正确预测集和错误预测集的样本总数,yi表示关系标签,m表示用于控制正负样本对距离界限的可训练参数,dθ表示距离计算公式。
29、在一个可选的实施例中,所述构建所述关系抽取模型的评价指标体系,通过所述评价指标体系综合评估关系抽取模型的性能包括:
30、s41:通过准确率、召回率以及f1分数构建评价指标体系;
31、s42:采用准确率计算所述关系抽取模型正确分类的样本数量同总样本数量之间的比率,所述样本包括正确分类的正样本、负样本以及错误分类的正样本和负样本;
32、s43:采用召回率计算所述关系抽取模型正确分类的正样本数量同实际正样本总量之间的比率,并输出标记为识别灵敏度;
33、s44:根据所述准确率和所述召回率计算所述关系抽取模型的f1分数,根据f1分数的排名评估当前关系抽取模型的性能。
34、本专利技术第二方面公开了一种复杂样本的关系抽取系统,所述系统包括:
35、数据预处理模块,用于获取样本数据,对所述样本数据进行预处理;
36、模型微调模块,用于采用bert模型作为语言编码器构建关系抽取模型,对所述关系抽取模型进行微调优化;
37、复杂样本增强模块,用于通过所述关系抽取模型对样本数据进行初预测,输出识别错误的样本标记为复杂样本,并通过所述复杂样本构建正负样本集,采用对比学习训练法和反向传播优化对样本数据进行加强训练直至收敛;
38、指标评价模块,用于构建所述关系抽取模型的评价指标体系,通过所述评价指标体系综合评估关系抽取模型的性能。
39、本专利技术第三方面公开了一种复杂样本的关系抽取设备,包括:
40、至少一个处理器,以及,
41、与所述至少一个处理器通信连接的存储器;其中,
42、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本专利技术第一方面公开的任一项所述的复杂样本的关系抽取方法。
43、本专利技术第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本专利技术第一方面公开的任一项所述的复杂样本的关系抽取方法。
44、与现有技术相比,本专利技术具有以下优点:<本文档来自技高网...
【技术保护点】
1.一种复杂样本的关系抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述对所述样本数据进行预处理包括:
3.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述对所述关系抽取模型进行微调优化包括:
4.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述通过所述复杂样本构建正负样本集包括:
5.根据权利要求4所述的复杂样本的关系抽取方法,其特征在于,所述采用对比学习训练法和反向传播优化对样本数据进行加强训练直至收敛包括:
6.根据权利要求5所述的复杂样本的关系抽取方法,其特征在于,所述对比学习损失函数的表达式为:
7.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述构建所述关系抽取模型的评价指标体系,通过所述评价指标体系综合评估关系抽取模型的性能包括:
8.一种复杂样本的关系抽取系统,其特征在于,所述系统包括:
9.一种复杂样本的关系抽取设备,其特征在于,包括:
10.一种计算机可读存储介质,其
...【技术特征摘要】
1.一种复杂样本的关系抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述对所述样本数据进行预处理包括:
3.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述对所述关系抽取模型进行微调优化包括:
4.根据权利要求1所述的复杂样本的关系抽取方法,其特征在于,所述通过所述复杂样本构建正负样本集包括:
5.根据权利要求4所述的复杂样本的关系抽取方法,其特征在于,所述采用对比学习训练法和反向传播优化对样本数据进行加强训练直至收敛包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:黄思东,黄加胜,彭俊伟,
申请(专利权)人:广州探域科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。