多特征语义融合的联合实体关系抽取方法、装置及介质制造方法及图纸

技术编号:42708121 阅读:30 留言:0更新日期:2024-09-13 12:00
本发明专利技术公开一种多特征语义融合的联合实体关系抽取方法、装置及介质,本发明专利技术引入了多特征语义融合模块,用于融合增强了实体间联系的实体掩码嵌入序列和提高了广度语义的包嵌入序列。随后,通过并行解码器一次性生成三元组集合嵌入,以提高三元组之间的交互和解码效率,然后使用FNN对三元组集合嵌入进行分类,并使用集合损失去指导模型训练,得到三元组集合。最后,采用实体掩码序列剪枝三元组集合。在公开数据集NYT和WebNLG上的实验结果表明,在编码器为Bert的情况下所提模型相较基线模型在准确率和F1指标上的效果更好,验证了本文模型的有效性。

【技术实现步骤摘要】

本专利技术属于计算机文本处理,更具体地,涉及一种多特征语义融合的联合实体关系抽取方法、装置及介质


技术介绍

1、随着互联网技术的发展,人们需要处理的数据量激增。如何快速高效地从开放领域的文本中抽取出有效信息,成为当前自然语言处理(natural language processing,nlp)领域的一个重要问题。作为信息抽取(information extraction)的核心任务,实体关系抽取(entity and relation extraction)旨在通过对文本语句进行建模,以快速高效地抽取其中蕴含的实体对及其语义关系,进而获取句子中的结构化三元组信息。其研究成果主要应用在自动问答、机器翻译、语义网标注、知识图谱等。

2、在实体关系抽取领域,经典的方法主要分为有监督、半监督、弱监督和无监督四大类。本文聚焦于有监督方法,使用经过人工标注的训练数据集进行研究。经典的有监督实体关系抽取方法利用人工特征提取和核函数的方法构建实体识别模型。然后,基于实体对构建能够识别其语义关系的模型,以实现实体间关系的抽取。研究者,如zhou和郭喜跃,采用支本文档来自技高网...

【技术保护点】

1.一种多特征语义融合的联合实体关系抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,利用Bert模型进行编码,所述Bert模型为在大规模语料中以自监督的方式进行预训练所得到的模型。

3.根据权利要求2所述的方法,其特征在于,将给定句子转为向量,其中大于;

4.根据权利要求3所述的方法,其特征在于,在得到词向量嵌入之后,所述方法包括:

5.根据权利要求1所述的方法,其特征在于,通过如下公式将所述实体掩码嵌入、包嵌入和词向量嵌入进行融合得到多特征词嵌入:

6.根据权利要求1所述的方法,其特征在于,根据...

【技术特征摘要】

1.一种多特征语义融合的联合实体关系抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,利用bert模型进行编码,所述bert模型为在大规模语料中以自监督的方式进行预训练所得到的模型。

3.根据权利要求2所述的方法,其特征在于,将给定句子转为向量,其中大于;

4.根据权利要求3所述的方法,其特征在于,在得到词向量嵌入之后,所述方法包括:

5.根据权利要求1所述的方法,其特征在于,通过如下公式将所述实体掩码嵌入、包嵌入和词向量嵌入进行融合得到多特征词嵌入:

6.根据权利要求1所述的方法,其特征在于,根据所述多...

【专利技术属性】
技术研发人员:杨文杰王婷王弘扬李佳
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1