一种碳中和领域中文文本的实体关系联合抽取方法及系统技术方案

技术编号:42629979 阅读:20 留言:0更新日期:2024-09-06 01:31
一种碳中和领域中文文本的实体关系联合抽取方法,针对碳中和的中文文本,利用Atom‑7B大模型得到文本句子的特征表示向量,然后通过PFN以联合抽取的方式得到文本中的实体关系三元组。以及提供一种碳中和领域中文文本的实体关系联合抽取系统,针对关系类型标注不平衡的训练数据,使用ChatGLM3接口对关系类型样本量少的文本句子进行数据增强;使用Atom‑7B大模型,通过在Embedding层添加噪声以及解码器层采用分层去掩码的策略,提取中文文本句子的特征表示向量;根据命名实体识别任务和关系抽取任务的难易程度,加入了动态损失函数,使PFN能关注更难的子任务。本发明专利技术提升了中文文本中抽取实体关系三元组的性能。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是一种碳中和领域中文文本的实体关系联合抽取方法及系统


技术介绍

1、构建碳中和领域的知识图谱,首先要获取碳中和领域相关文本,关键在于从文本中提取关系三元组,提取关系三元组这个步骤也称为关系抽取。关系抽取方法有流水线方法和联合抽取方法,联合抽取方法通过实体识别和关系分类联合模型,直接得到存在关系的实体三元组。目前联合抽取方法达到了更高的性能,并且受到了更多的关注。pfn(apartition filter network for joint entity and relation extraction,2021)提出了一种分区过滤网络来正确建模任务之间的双向交互,使用联合抽取模式将命名实体识别(ner)和关系抽取(re)两个子任务进行深层次的交互,使得两个任务相互促进,并取得了优秀的抽取性能。

2、最近有研究尝试将chatgpt、chatglm等大语言模型用在关系抽取任务,其将关系抽取问题视为序列到序列的任务,将实体之间的关系线性化为根据输入生成的目标字符串。有研究先使用chatgpt生成思维链,再用生成的思本文档来自技高网...

【技术保护点】

1.一种碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述方法包括如下步骤:

2.如权利要求1所述的碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述步骤二中,对D1中样本数量少的关系类型,挑选出包含该关系类型的样本s0,调用ChatGLM3大模型接口,通过对话的形式生成和原样本有相同关系三元组的样本集,并加入D1中,过程如下:

3.如权利要求1或2所述的碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述步骤三的过程如下:

4.一种实现如权利要求1所述的碳中和领域中文文本的实体关系联合抽取的系统,其特征在于,所述系统包括:...

【技术特征摘要】

1.一种碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述方法包括如下步骤:

2.如权利要求1所述的碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述步骤二中,对d1中样本数量少的关系类型,挑选出包含该关系类型的样本s0,调用chatglm3大模型接口,通过对话的形...

【专利技术属性】
技术研发人员:徐新黎姚高超杨旭华马钢峰李响
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1