【技术实现步骤摘要】
本专利技术属于信息抽取领域的一种信息抽取方法,具体涉及了一种能够在单个轻量级架构中统一且高效地处理不同信息抽取任务的通用信息抽取方法。
技术介绍
1、信息抽取是指从非结构化或半结构化的机器可读文档中自动抽取结构化数据的过程。信息抽取包含各种子任务,主要的子任务包括命名实体识别、关系抽取、事件抽取。当前信息抽取领域的方法通常是独立于任务的,导致资源消耗并阻碍任务间的知识共享。
2、对于命名实体识别,许多传统的命名实体识别方法将其建模为一个序列标记任务。为了解决嵌套实体的问题,一些方法引入了堆叠或级联标记策略。一类流行的方法是基于跨度的方法,通过完成对潜在跨度的分类任务完成命名实体识别;另一类流行的方法是基于预训练语言模型的生成式方法。同时,还有一些创新性方法使用阅读理解模型,提示学习或扩散模型解决命名实体识别问题。
3、对于关系抽取,流水线方法和联合方法是两类主要的方法。流水线方法先利用实体识别模型对句子中的实体予以标记,再借助关系抽取模型预测实体之间的关系,这种方法虽然灵活,但面临错误传播问题,即实体识别的预测错
...【技术保护点】
1.一种通用的信息抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,训练数据集包含不同任务类型的训练样本,每个训练样本由包含N个字的输入序列和对应的标签组成,所述标签为包含跨度和跨度-跨度关系的二值标签矩阵。
3.根据权利要求2所述的一种通用的信息抽取方法,其特征在于,对于每个所述包含N个字的输入序列,其标签具体为:
4.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,通用信息抽取模型包含相连的文本向量表示提取模块和特征编码模块,输入序列作为文本向量表示
...【技术特征摘要】
1.一种通用的信息抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,训练数据集包含不同任务类型的训练样本,每个训练样本由包含n个字的输入序列和对应的标签组成,所述标签为包含跨度和跨度-跨度关系的二值标签矩阵。
3.根据权利要求2所述的一种通用的信息抽取方法,其特征在于,对于每个所述包含n个字的输入序列,其标签具体为:
4.根据权利要求1所述的一种通用的信息抽取方法,其特征在于,所述1)中,通用信息抽取模型包含相连的文本向量表示提取模块和特征编码模块,输入序列作为文本向量表示提取模块的输入,特征编码模块输出二阶概率矩阵y’并作为通用信息抽取模型的输出;
5.根据权利要求4所述的一种通用的信息抽取方法,其特征在于,所述轻量变压器模型包括n个依次相连的transformer层,双仿射模型的输出作为第一个transformer层的输入,最后一个transformer层的输出作为轻量变压器模型的输出;每个transformer层均包含残差cnn模块、轻量注意力模块和两个层归一化层,每个transformer层的输入作为残差cnn模块的输入,残...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。