当前位置: 首页 > 专利查询>浙江大学专利>正文

一种通用的信息抽取方法技术

技术编号:43571194 阅读:23 留言:0更新日期:2024-12-06 17:40
本发明专利技术公开了一种通用的信息抽取方法。本发明专利技术将信息抽取任务重新表述为跨度抽取和跨度‑跨度关系抽取,从而将信息抽取任务统一为二维矩阵上的目标框检测任务。本发明专利技术提出了轻量注意力模块,它结合了Softmax注意力机制和线性注意力机制的优点,将空间和时间复杂度从O(L<supgt;2</supgt;)降低到O(L<supgt;1.5</supgt;),同时实现了更好的性能。此外,本发明专利技术设计并使用了轻量变压器模型,该模型将轻量注意力模块与卷积神经网络集成在一起,以捕获二维特征矩阵中的长距离和局部依赖关系。对八个数据集的六个信息抽取任务的综合评估表明,本发明专利技术提出的方法达到了非常先进的性能。此外,本发明专利技术还展现出卓越的知识迁移能力并具有显著的效率。

【技术实现步骤摘要】

本专利技术属于信息抽取领域的一种信息抽取方法,具体涉及了一种能够在单个轻量级架构中统一且高效地处理不同信息抽取任务的通用信息抽取方法。


技术介绍

1、信息抽取是指从非结构化或半结构化的机器可读文档中自动抽取结构化数据的过程。信息抽取包含各种子任务,主要的子任务包括命名实体识别、关系抽取、事件抽取。当前信息抽取领域的方法通常是独立于任务的,导致资源消耗并阻碍任务间的知识共享。

2、对于命名实体识别,许多传统的命名实体识别方法将其建模为一个序列标记任务。为了解决嵌套实体的问题,一些方法引入了堆叠或级联标记策略。一类流行的方法是基于跨度的方法,通过完成对潜在跨度的分类任务完成命名实体识别;另一类流行的方法是基于预训练语言模型的生成式方法。同时,还有一些创新性方法使用阅读理解模型,提示学习或扩散模型解决命名实体识别问题。

3、对于关系抽取,流水线方法和联合方法是两类主要的方法。流水线方法先利用实体识别模型对句子中的实体予以标记,再借助关系抽取模型预测实体之间的关系,这种方法虽然灵活,但面临错误传播问题,即实体识别的预测错误会对后一步的关系抽本文档来自技高网...

【技术保护点】

1.一种通用的信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,训练数据集包含不同任务类型的训练样本,每个训练样本由包含N个字的输入序列和对应的标签组成,所述标签为包含跨度和跨度-跨度关系的二值标签矩阵。

3.根据权利要求2所述的一种通用的信息抽取方法,其特征在于,对于每个所述包含N个字的输入序列,其标签具体为:

4.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,通用信息抽取模型包含相连的文本向量表示提取模块和特征编码模块,输入序列作为文本向量表示提取模块的输入,特征...

【技术特征摘要】

1.一种通用的信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,训练数据集包含不同任务类型的训练样本,每个训练样本由包含n个字的输入序列和对应的标签组成,所述标签为包含跨度和跨度-跨度关系的二值标签矩阵。

3.根据权利要求2所述的一种通用的信息抽取方法,其特征在于,对于每个所述包含n个字的输入序列,其标签具体为:

4.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,通用信息抽取模型包含相连的文本向量表示提取模块和特征编码模块,输入序列作为文本向量表示提取模块的输入,特征编码模块输出二阶概率矩阵y’并作为通用信息抽取模型的输出;

5.根据权利要求4所述的一种通用的信息抽取方法,其特征在于,所述轻量变压器模型包括n个依次相连的transformer层,双仿射模型的输出作为第一个transformer层的输入,最后一个transformer层的输出作为轻量变压器模型的输出;每个transformer层均包含残差cnn模块、轻量注意力模块和两个层归一化层,每个transformer层的输入作为残差cnn模块的输入,残...

【专利技术属性】
技术研发人员:鲁伟明陈震寰
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1