当前位置: 首页 > 专利查询>东南大学专利>正文

基于ELETRIC-BERT的实体抽取方法技术

技术编号:32017809 阅读:31 留言:0更新日期:2022-01-22 18:36
本发明专利技术提供了一种基于ELETRIC

【技术实现步骤摘要】
基于ELETRIC

BERT的实体抽取方法


[0001]本专利技术涉及一种基于ELETRIC

BERT的实体抽取方法,属于自然语言处理


技术介绍

[0002]实体抽取,又称为命名实体识别,主要是识别出文本中实体的命名性指称项,并标明其类别,是信息抽取任务中的一项重要技术任务,在早期,主要是利用基于规则的方法进行实体抽取。基于规则的方法在小规模语料中,效果很好,但是需要人工编写相应规则,所以迁移能力差,通用性不强。后来,传统机器学习模型应用到了命名实体识别领域,以提高其鲁棒性。包括马尔可夫模型、最大熵模型等。基于传统机器学习模型的实体抽取方法,虽然取得了较好的性能,但是依赖于人工设计的特征,并且容易受到现有自然语言处理工具性能的影响。
[0003]近年来,随着深度学习的蓬勃发展,很多学者提出使用神经网络模型自动地从文本中提取特征,进而完成实体抽取任务,即使用深度学习模型进行实体抽取。基于深度学习的实体抽取模型,包括Lample提出的BiLSTM

CRF模型;Chiu提出本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于ELETRIC

BERT的实体抽取方法,其特征在于,包括如下步骤:步骤1:首先采集海量电力领域文本语料作为训练数据集;之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,得到了蕴含丰富知识的领域预训练模型ELETRIC

BERT;步骤2:将步骤1中通过预训练过程得到的领域预训练模型ELETRIC

BERT与实体抽取基本模型进行整合,得到基于ELETRIC

BERT的实体抽取模型;步骤3:使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。2.根据权利要求1所述的基于ELETRIC

BERT的实体抽取方法,其特征在于,所述步骤1中预训练任务为领域词完型填空,包括:对数据集中的文本语料进行句子级别的遮挡,每个句子随机遮挡其部分领域专有词,若句子中专有词不足,则使用StandfordCoreNLP进行依存分析,得到相应解析树,然后分析解析树,提取出句子中的普通词,对这部分普通词进行遮挡,填补专有词的空缺。3.根据权利要求2所述的基于ELETRIC

BERT的实体抽取方法,其特征在于,遮挡的专有词字数占总句子的15%。4.根据权利要求2所述的基于ELETRIC

BERT的实体抽取方法,其特征在于,所述步骤1预训练过程中,模型对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。5.根据权利要求1所述的基于ELETRIC

BERT的实体抽取方法,其特征在于,所述步骤2中整合过程为:在实体抽取基本模型上叠加领域预训练模型进行训练。6.根据权利要求1所述的基于ELETRIC

BERT的实体抽取方法,其特征在于,所述步骤3中模块替换策略使用6个未经训练的transformer encoder block对ELETRIC

【专利技术属性】
技术研发人员:宋爱波周宇孙季斌
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1