通过预训练BERT进行化学生产命名实体识别的方法技术

技术编号:42995587 阅读:41 留言:0更新日期:2024-10-15 13:24
本发明专利技术属于实体识别技术领域,特别涉及通过预训练BERT进行化学生产命名实体识别的方法。该方法包括S1、将需要识别的文本输送到预训练的LM嵌入模型ChemBERT中,从而获得语义表示向量和语义检索库;S2、将解码器应用到步骤S1的语义表示向量上;S3、使用解码标签和KNN聚类标签进行投票,投票的结果用作最终输出。该方法解决了现有的实体识别方法出现的数据集中存在长尾数据和小样本数据的问题。

【技术实现步骤摘要】

本专利技术属于实体识别,特别涉及通过预训练bert进行化学生产命名实体识别的方法。


技术介绍

1、命名实体识别是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。目前,利用机器学习方法的大部分命名实体识别工作都是基于bert、lstm和crf的不同组合,通常使用序列模型如长短期记忆(lstm)作为基线模型,结合多任务学习和多步训练来提高临床ner数据集的性能的方法。然而,lstm处理长文本需要很长时间,考虑到上下文,采用双向长短期记忆(bilstm),最具代表性的模型是bilstm-crf,它利用bilstm网络对生物医学文本进行编码,利用crf对命名实体标签进行解码。还有方法融入bert,使用注意机制,可以并行计算文本每个位置相对于另一个位置的权重,bert在训练和微调之前直接学习wordpiece嵌入,使用基于其最后一层表示的单个输出层仅计算标记级bio概率,与其他方法相比,这大大提高了其在命名实体识别任务上的性能。

2、化学命名实体识别(ner)是化学领域信息提本文档来自技高网...

【技术保护点】

1.通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,使用一种预训练BERT的LM嵌入模型ChemBERT进行实体识别,其中,该嵌入模型ChemBERT包括嵌入层、KNN检索层、CRF解码层和输出层;

2.根据权利要求1所述的通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,步骤S1中,获得语义表示向量的具体步骤如下:

3.根据权利要求2所述的通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,步骤S1中,获得语义检索库的具体步骤如下:

4.根据权利要求3所述的通过预训练BERT进行化学生产命名实体识别的方法,其特征在...

【技术特征摘要】

1.通过预训练bert进行化学生产命名实体识别的方法,其特征在于,使用一种预训练bert的lm嵌入模型chembert进行实体识别,其中,该嵌入模型chembert包括嵌入层、knn检索层、crf解码层和输出层;

2.根据权利要求1所述的通过预训练bert进行化学生产命名实体识别的方法,其特征在于,步骤s1中,获得语义表示向量的具体步骤如下:

3.根据权利要求2所述的通过预训练ber...

【专利技术属性】
技术研发人员:宋弢王珣王爽韩佩甫
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1