基于对比学习的文本关系提取方法、装置、设备及介质制造方法及图纸

技术编号:38809226 阅读:11 留言:0更新日期:2023-09-15 19:48
本发明专利技术涉及人工智能技术,揭露了一种基于对比学习的文本关系提取方法,包括:获取原始文本,识别原始文本中三元组集合,对三元组集合进行实体提取,得到目标实体;将原始文本与预构建的第一提示模板进行替换,得到第一替换模板,将目标实体与预构建的第二提示模板进行替换,得到第二替换模板;对第一替换模板和第二替换模板进行语义分析,得到第一分析语义和第二分析语义,对第一分析语义进行表征提取,得到第一语义表征,对第二分析语义进行表征提取,得到第二语义表征;根据第一语义表征和第二语义表征,通过训练好的关系识别模型识别原始文本的文本关系。本发明专利技术在于提高提取金融样本数据语义的准确性。本数据语义的准确性。本数据语义的准确性。

【技术实现步骤摘要】
基于对比学习的文本关系提取方法、装置、设备及介质


[0001]本专利技术涉及智能决策
,尤其涉及一种基于对比学习的文本关系提取方法、装置、设备及计算机可读介质。

技术介绍

[0002]近年来,大规模预训练模型的兴起给深度学习的诸多研究领域带来了深远地影响,如金融文本数据,会涉及到大量的文本、数字以及图像,需要通过不同版本的模型训练,但随着各种版本的预训练模型的体量越来越大,如文本关系提取模型训练过程中会通过对比学习进行优化,对比学习是一种常用的自监督学习方法,其核心思想是把正样本距离拉近,正样本与负样本距离拉远,类似度量学习中的数量,但是对比学习为正负样本分类,无数量概念。
[0003]文本关系提取模型主要是将下游任务的金融样本输入通过特定的模板重新调整为类似于预训练任务的输入形式,通过这种方式能够在一定程度上提高迁移学习能力,但是该方法是会影响原始金融样本的语义表征,进而导致文本关系提取的准确率下降,因此,目前急需一种能够提高文本关系提取的准确性的方法。

技术实现思路

[0004]本专利技术提供一种基于对比学习的文本关系提取方法、装置、设备及介质,其主要目的在于提高提取样本数据语义的准确性。
[0005]为实现上述目的,本专利技术提供的一种基于对比学习的文本关系提取方法,包括:
[0006]获取原始文本,识别所述原始文本中三元组集合,对所述三元组集合进行实体提取,得到目标实体;
[0007]将所述原始文本与预构建的第一提示模板进行替换,得到第一替换模板,将所述目标实体与预构建的第二提示模板进行替换,得到第二替换模板;
[0008]对所述第一替换模板和所述第二替换模板进行语义分析,得到第一分析语义和第二分析语义,对所述第一分析语义进行表征提取,得到第一语义表征,对所述第二分析语义进行表征提取,得到第二语义表征;
[0009]根据所述第一语义表征和所述第二语义表征,通过训练好的关系识别模型识别所述原始文本的文本关系。
[0010]可选地,所述识别所述原始文本中三元组集合,包括:
[0011]对所述原始文本进行语句划分,得到文本语句;
[0012]对所述文本语句进行过滤处理,得到过滤语句;
[0013]对所述过滤语句进行语法分析,得到分析结果;
[0014]根据所述分析结果识别所述过滤语句中的三元组集合。
[0015]可选地,所述将所述原始文本与预构建的第一提示模板进行替换,得到第一替换模板,包括:
[0016]对所述预构建的第一提示模板进行初始化处理,得到初始第一模板;
[0017]分析所述初始第一模板的结构特征,将所述原始文本按照所述结构特征进行替换,得到第一替换模。
[0018]可选地,所述分别对所述第一替换模板和所述第二替换模板进行语义分析,得到第一分析语义和第二分析语义,包括:
[0019]识别所述第一替换模板和所述第二替换模板的文本数据,得到第一文本数据和第二文本数;
[0020]分别对所述第一文本数据和所述第二文本数据进行分词处理,得到第一文本分词和第二文本分词;
[0021]分别将所述第一文本分词和所述第二文本分词与预先构建的词语语义分析表匹配,得到第一分析语义和第二分析语义。
[0022]可选地,所述对所述第一分析语义进行表征提取,得到第一语义表征,,包括:
[0023]对所述第一分析语义进行向量化处理,得到语义向量;
[0024]对所述语义向量进行特征提取,得到语义特征向量;
[0025]计算所述语义特征向量的权重值,将所述权重值大于预设阈值的语义特征向量作为所述第一分析语义的目标特征向量;
[0026]根据所述目标特征向量得到所述第一分析语义的语义表征。
[0027]可选地,所述根据所述第一语义表征和所述第二语义表征,通过训练好的关系识别模型识别所述原始文本的文本关系之前,还包括:
[0028]获取训练样本及其对应的真实标签,所述真实标签包括真实语义表征和真实文本关系;
[0029]利用预构建的关系识别模型中的语义分析网络检测所述训练样本的预测语义表征,根据所述预测语义表征,利用预构建的关系识别模型中的文本关系识别网络识别所述训练样本的预测文本关系;
[0030]利用所述预构建的关系识别模型中第一损失函数计算所述真实语义表征和所述预测语义表征的第一损失,及利用所述预构建的关系识别模型中第二损失函数计算所述真实文本关系和所述预测文本关系的第二损失;
[0031]根据所述第一损失和所述第二损失,计算所述预构建的关系识别模型的最终损失;
[0032]在所述最终损失大于预设损失时,调整所述预构建的关系识别模型的参数,并返回执行所述利用预构建的关系识别模型中的语义分析网络检测所述训练样本的预测语义表征的步骤;
[0033]若所述最终损失不大于所述预设损失时,得到训练好的关系识别模型。
[0034]可选地,所述第二损失函数包括:
[0035][0036]其中,loss2表示第二损失,h
mask1
表示第一分析语义,h
mask2
表示第二分析语义,表示同一轮次中第i个h
mask1
的向量,N表示所述第一分析语义和所述第二分析语义
的最后一个向量。
[0037]为了解决上述问题,本专利技术还提供一种基于对比学习的文本关系提取装置,所述装置包括:
[0038]实体识别模块,用于获取原始文本,识别所述原始文本中三元组集合,对所述三元组集合进行实体提取,得到目标实体;
[0039]模板替换模块,用于将所述原始文本与预构建的第一提示模板进行替换,得到第一替换模板,将所述目标实体与预构建的第二提示模板进行替换,得到第二替换模板;
[0040]语义表征分析模块,用于对所述第一替换模板和所述第二替换模板进行语义分析,得到第一分析语义和第二分析语义,对所述第一分析语义进行表征提取,得到第一语义表征,对所述第二分析语义进行表征提取,得到第二语义表征;
[0041]模型训练模块,用于根据所述第一语义表征和所述第二语义表征,通过训练好的关系识别模型识别所述原始文本的文本关系。
[0042]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0043]至少一个处理器;以及,
[0044]与所述至少一个处理器通信连接的存储器;其中,
[0045]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于对比学习的文本关系提取方法。
[0046]为了解决上述问题,本专利技术还提供一种计算机可读介质,所述计算机可读介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于对比学习的文本关系提取方法。
[0047]本专利技术实施例通过获取原始文本,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的文本关系提取方法,其特征在于,所述方法包括:获取原始文本,识别所述原始文本中三元组集合,对所述三元组集合进行实体提取,得到目标实体;将所述原始文本与预构建的第一提示模板进行替换,得到第一替换模板,将所述目标实体与预构建的第二提示模板进行替换,得到第二替换模板;对所述第一替换模板和所述第二替换模板进行语义分析,得到第一分析语义和第二分析语义,对所述第一分析语义进行表征提取,得到第一语义表征,对所述第二分析语义进行表征提取,得到第二语义表征;根据所述第一语义表征和所述第二语义表征,通过训练好的关系识别模型识别所述原始文本的文本关系。2.如权利要求1所述的基于对比学习的文本关系提取方法,其特征在于,所述识别所述原始文本中三元组集合,包括:对所述原始文本进行语句划分,得到文本语句;对所述文本语句进行过滤处理,得到过滤语句;对所述过滤语句进行语法分析,得到分析结果;根据所述分析结果识别所述过滤语句中的三元组集合。3.如权利要求2所述的基于对比学习的文本关系提取方法,其特征在于,所述将所述原始文本与预构建的第一提示模板进行替换,得到第一替换模板,包括:对所述预构建的第一提示模板进行初始化处理,得到初始第一模板;分析所述初始第一模板的结构特征,将所述原始文本按照所述结构特征进行替换,得到第一替换模。4.如权利要求1所述的基于对比学习的文本关系提取方法,其特征在于,所述分别对所述第一替换模板和所述第二替换模板进行语义分析,得到第一分析语义和第二分析语义,包括:识别所述第一替换模板和所述第二替换模板的文本数据,得到第一文本数据和第二文本数;分别对所述第一文本数据和所述第二文本数据进行分词处理,得到第一文本分词和第二文本分词;分别将所述第一文本分词和所述第二文本分词与预先构建的词语语义分析表匹配,得到第一分析语义和第二分析语义。5.如权利要求1所述的基于对比学习的文本关系提取方法,其特征在于,所述对所述第一分析语义进行表征提取,得到第一语义表征,包括:对所述第一分析语义进行向量化处理,得到语义向量;对所述语义向量进行特征提取,得到语义特征向量;计算所述语义特征向量的权重值,将所述权重值大于预设阈值的语义特征向量作为所述第一分析语义的目标特征向量;根据所述目标特征向量得到所述第一分析语义的语义表征。6.如权利要求1所述的基于对比学习的文本关系提取方法,其特征在于,所述根据所述第一语义表征和所述第二语义表征,通过训练好的关系识别模型识别所述原始文本的文本
关系之前,还包括:获取训练样本及其对应的真实标签,所述真...

【专利技术属性】
技术研发人员:马旭强王燕蒙李剑锋王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1