一种多标签实体标注方法技术

技术编号:31505927 阅读:76 留言:0更新日期:2021-12-22 23:36
本发明专利技术提出了一种多标签标注方法,该方法主要包括一种多标签实体标注的处理流程、一种基于深度学习的多标签实体预测模型和一种基于在线纠错的反馈式模型优化框架。与已有的实体标注方法相比,一方面本发明专利技术提出的方法可以实现对税务领域特有信息的标注抽取,另一方面本发明专利技术提出的自动标注模型可以处理为同一段字符串赋予多种实体标签的问题,此外,本发明专利技术中的实时反馈式模型优化框架为模型的迭代进化提供了一种可行的方案,使模型在每次交互中逐渐优化,具有重要实践价值。具有重要实践价值。具有重要实践价值。

【技术实现步骤摘要】
一种多标签实体标注方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及数据标注领域,具体是多标签实体标注方法。

技术介绍

[0002]实体标注是非结构化数据结构化的重要环节之一,通过实体标注从非结构化的文本中提取出核心实体,将其存储下来形成结构化的知识。我国经济规模巨大,纳税主体和场景繁多,全国和各地的税收法规更新频繁,迫切需求一种可以替代专家进行税法自动解读的方案。已有的实体标注方法大量依赖人力,并且对每个实体只赋予一种标签,各个实体之间没有内容上的重叠,而税务领域的法规数量繁多,实体之间内容重叠的现象大量存在,需要一种能够对税务文本进行多标签标注的方法。
[0003]专利《一种面向军事语料的命名实体标注方法》(公开号CN111428502A)主要通过XGBoost算法对LSTM、Lattice LSTM和BERT模型进行集成学习,通过模型预测和人工确认获得军事领域命名实体。专利《一种基于自动样本标注的闭环实体抽取方法》(公开号CN111125378A)提出了一种闭环工作流程,通过该流程进行实体抽取可以降低人工标注的难度。专利《本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多标签实体标注方法,其特征在于:包括以下方法:S01)、获取文本内容,基于文本内容构建数据库;S02)、基于文本内容,定义N种本领域使用最频繁、最有使用价值的实体,N为正整数,根据已经定义好的N种实体,构建相应的标签;S03)、对文本内容进行清洗、关联排序,所述关联排序是按时间排序;S04)、将清洗完成的文本作为参数传递至基于深度学习的多标签实体预测模型,多标签实体预测模型自动地为字符序列打标签,称为预标注;与单标签实体标注模型不同,多标签实体预测模型为同一段字符串赋予一个以上的实体标签,并且多标签实体预测模型不关注实体关系,实体即使不与其他实体发生关系,多标签实体预测模型也将其标注出来;S05)、基于在线纠错的反馈式模型优化框架对预标注的结果进行人工审核,根据人工审核结果和多标签实体预测模型的预测结果之间的差异对多标签实体预测模型的泛化能力进行打分,进而对多标签实体预测模型进行优化;S06)、对经过人工复核的原始标注结果进行后处理,从而提取出实体信息,将其存储到数据库中。2.根据权利要求1所述的多标签实体标注方法,其特征在于:多标签实体预测模型进行预标注的过程为:S41)、通过预编码模块对需要标注的字符序列片段进行预编码,预训练编码模块包括嵌入层和预训练编码器,嵌入层由词汇嵌入、词汇所在的位置嵌入和词汇所在的片段嵌入三个嵌入向量加和得到,预训练编码器在BERT预训练语言模型的基础上增加片段循环机制,具体来说,将完整字符序列分割成片段后,将前一个片段的字符的编码向量和当前片段中的每一个向量加和,然后再通过BERT编码器对向量序列进行编码,计算公式如下:
ꢀꢀꢀꢀꢀꢀ
(1),其中w表示词汇,i表示第i个片段,j表示当前片段中的第j个词汇,各个片段中的第0个词汇指的都是特殊字符,h代表经过BERT预训练语言模型输出的预编码向量;S42)、经过预编码,长度为L的文本序列被编码为形状为[h0,L]的二阶张量,该张量中的每一列代表文本中一个字符的上下文特征向量,h0表示每个字符特征向量的长度;考虑到文本内容并不是单纯地将字符线性串联而成,以语义单元为节点,以语法依存关系为边将节点连接起来就形成了各词汇间的生成关系图,基于该图构建一个图卷积网络,将图卷积网络的卷积核数目设定为标签类别的数目,使用构造好的图卷积网络对预编码模块输出的二阶张量进行非线性变换,得到K个不同的特征map,每个map为一个矩阵,K为标签类别的数目;通过本步骤,形状为[h0,L]的预编码特征转化为形状为[K,H,L]的三阶张量,H和L分别代表隐藏层的维度和序列长度;S43)、使用最大池化方法对所有的特征map逐一处理,通过池化层的维度压缩作用,提取出每个字符在每个map中得到的最大相关性打分,也就是形状为[K,L]的分类特征矩阵M,该矩阵中的每个元素代表一个字符与标签的相关性得分;L代表隐藏层的序列长度;S44)、使用...

【专利技术属性】
技术研发人员:张传锋朱锦雷井焜张琨潘玲玲
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1