【技术实现步骤摘要】
基于ELETRIC
‑
BERT的实体抽取方法
[0001]本专利技术涉及一种基于ELETRIC
‑
BERT的实体抽取方法,属于自然语言处理
技术介绍
[0002]实体抽取,又称为命名实体识别,主要是识别出文本中实体的命名性指称项,并标明其类别,是信息抽取任务中的一项重要技术任务,在早期,主要是利用基于规则的方法进行实体抽取。基于规则的方法在小规模语料中,效果很好,但是需要人工编写相应规则,所以迁移能力差,通用性不强。后来,传统机器学习模型应用到了命名实体识别领域,以提高其鲁棒性。包括马尔可夫模型、最大熵模型等。基于传统机器学习模型的实体抽取方法,虽然取得了较好的性能,但是依赖于人工设计的特征,并且容易受到现有自然语言处理工具性能的影响。
[0003]近年来,随着深度学习的蓬勃发展,很多学者提出使用神经网络模型自动地从文本中提取特征,进而完成实体抽取任务,即使用深度学习模型进行实体抽取。基于深度学习的实体抽取模型,包括Lample提出的BiLSTM
‑
CR ...
【技术保护点】
【技术特征摘要】
1.一种基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,包括如下步骤:步骤1:首先采集海量电力领域文本语料作为训练数据集;之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,得到了蕴含丰富知识的领域预训练模型ELETRIC
‑
BERT;步骤2:将步骤1中通过预训练过程得到的领域预训练模型ELETRIC
‑
BERT与实体抽取基本模型进行整合,得到基于ELETRIC
‑
BERT的实体抽取模型;步骤3:使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。2.根据权利要求1所述的基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,所述步骤1中预训练任务为领域词完型填空,包括:对数据集中的文本语料进行句子级别的遮挡,每个句子随机遮挡其部分领域专有词,若句子中专有词不足,则使用StandfordCoreNLP进行依存分析,得到相应解析树,然后分析解析树,提取出句子中的普通词,对这部分普通词进行遮挡,填补专有词的空缺。3.根据权利要求2所述的基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,遮挡的专有词字数占总句子的15%。4.根据权利要求2所述的基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,所述步骤1预训练过程中,模型对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。5.根据权利要求1所述的基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,所述步骤2中整合过程为:在实体抽取基本模型上叠加领域预训练模型进行训练。6.根据权利要求1所述的基于ELETRIC
‑
BERT的实体抽取方法,其特征在于,所述步骤3中模块替换策略使用6个未经训练的transformer encoder block对ELETRIC
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。