【技术实现步骤摘要】
本专利技术属于实体识别,特别涉及通过预训练bert进行化学生产命名实体识别的方法。
技术介绍
1、命名实体识别是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。目前,利用机器学习方法的大部分命名实体识别工作都是基于bert、lstm和crf的不同组合,通常使用序列模型如长短期记忆(lstm)作为基线模型,结合多任务学习和多步训练来提高临床ner数据集的性能的方法。然而,lstm处理长文本需要很长时间,考虑到上下文,采用双向长短期记忆(bilstm),最具代表性的模型是bilstm-crf,它利用bilstm网络对生物医学文本进行编码,利用crf对命名实体标签进行解码。还有方法融入bert,使用注意机制,可以并行计算文本每个位置相对于另一个位置的权重,bert在训练和微调之前直接学习wordpiece嵌入,使用基于其最后一层表示的单个输出层仅计算标记级bio概率,与其他方法相比,这大大提高了其在命名实体识别任务上的性能。
2、化学命名实体识别(ne
...【技术保护点】
1.通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,使用一种预训练BERT的LM嵌入模型ChemBERT进行实体识别,其中,该嵌入模型ChemBERT包括嵌入层、KNN检索层、CRF解码层和输出层;
2.根据权利要求1所述的通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,步骤S1中,获得语义表示向量的具体步骤如下:
3.根据权利要求2所述的通过预训练BERT进行化学生产命名实体识别的方法,其特征在于,步骤S1中,获得语义检索库的具体步骤如下:
4.根据权利要求3所述的通过预训练BERT进行化学生产命名实体
...【技术特征摘要】
1.通过预训练bert进行化学生产命名实体识别的方法,其特征在于,使用一种预训练bert的lm嵌入模型chembert进行实体识别,其中,该嵌入模型chembert包括嵌入层、knn检索层、crf解码层和输出层;
2.根据权利要求1所述的通过预训练bert进行化学生产命名实体识别的方法,其特征在于,步骤s1中,获得语义表示向量的具体步骤如下:
3.根据权利要求2所述的通过预训练ber...
【专利技术属性】
技术研发人员:宋弢,王珣,王爽,韩佩甫,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。