【技术实现步骤摘要】
序列标注方法及系统、事件要素抽取方法及系统
本专利技术涉及自然语言处理
,特别涉及一种基于BERT预训练模型的序列标注方法及系统、事件要素抽取方法及系统。
技术介绍
序列标注就是对一个一维线性输入序列,给线性序列中的每个元素打上标签集合中的某个标签。所以,其本质上是对线性序列中每个元素根据上下文进行分类的问题。命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。BERT(BidirectionalEncoderRepresentationsfromTransformers)是谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。BERT预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成,所以一般由大型公司如谷歌公司等训练完成,其他用户只需要通 ...
【技术保护点】
1.一种基于BERT预训练模型的序列标注方法,其特征在于,增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待标注文本进行序列标注;增加的输入层为辅助分类识别的特征词表示层。/n
【技术特征摘要】
1.一种基于BERT预训练模型的序列标注方法,其特征在于,增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待标注文本进行序列标注;增加的输入层为辅助分类识别的特征词表示层。
2.根据权利要求1所述的基于BERT预训练模型的序列标注方法,其特征在于,包括以下步骤:
基于指定的任务,对准备的文本语料进行人工标注,并对人工标注后的文本语料中的辅助分类识别的特征词进行标注;
将特征词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值,将标注后的文本语料送入BERT预训练模型进行微调,并将特征词表示层同时训练,通过反向传播的梯度进行变化,最终得到特征词表示层的向量矩阵以及训练好的分类模型;
将待标注文本输入训练好的分类模型进行推理,并将待分类文本中的所述辅助分类识别的特征词以所述向量矩阵索引输入,输出序列标注结果。
3.根据权利要求2所述的基于BERT预训练模型的序列标注方法,其特征在于,所述指定的任务为事件要素抽取任务,所述辅助分类识别的特征词为命名实体的类型。
4.一种基于BERT预训练模型的事件要素抽取方法,其特征在于,包括以下步骤:
基于事件要素的定义,对准备的文本语料中的事件要素进行标注,并标注出事件要素的类型;
将NER特征表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值;
将处理后的文本语料送入BERT预训练模型进行微调,并将NER特征表示层同时训练,通过反向传播的梯度进行变化,最终得到NER特征表示层的向量矩阵,以及训练好的分类模型;
将待抽取文本输入训练好的分类模型进行推理,并将待抽取文本中的命名实体用预先训练好的NER工具标注出命名实体,使得待抽取文本中的命名实体以所述向量矩阵索引输入,输出事件要素预测结果;
基于事件要素...
【专利技术属性】
技术研发人员:刘世林,罗镇权,张发展,李焕,曾途,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。