【技术实现步骤摘要】
信息抽取模型训练方法、信息抽取方法及装置
[0001]本申请涉及自然语言处理领域,具体涉及一种信息抽取模型训练方法、信息抽取方法及装置。
技术介绍
[0002]在证券、银行等金融机构里面通常需要对重要的宏观财经类新闻、中观的行业内新闻和微观的企业新闻进行信息抽取。宏观的经济新闻和指标因为机构的关注点比较固定,因此可以通过规则配置的方式实现;而中观的行业、微观企业的新闻因为新闻众多、人力有限的情况,通常需要一种自动的信息抽取的方式完成相关行业、企业的高效信息提取。一般来说,业务人员比较关心发生新闻的事件具体是什么,并且希望能够自动给出新闻具体的情感方向(正面、负面、中性)等。
[0003]以上信息抽取的诸多问题可以归为几类:实体识别、关系抽取、事件抽取。此外,在金融场景中还需要完成上述的情感分析任务(也可称为观点抽取任务)。
[0004]当在现有技术中执行诸如实体识别、关系抽取、事件抽取、情感分析等各项信息抽取子任务时,通常采用流水线形式进行各项子任务。换句话说,采用流水线方式,将每个子任务拆开,分别做各自的任 ...
【技术保护点】
【技术特征摘要】
1.一种信息抽取模型训练方法,其特征在于,所述方法包括:针对多个联合信息抽取任务中的每个任务构建对应的结构化提示器模板,得到多个结构化提示器模板;获取第一训练样本数据和第二训练样本数据;其中,所述第一训练样本数据包括第一文本数据以及与所述第一文本数据对应的第一结构化语言标签,所述第二训练样本数据包括第二文本数据以及与所述第二文本数据对应的第二结构化语言标签;基于所述第一训练样本数据和所述多个结构化提示器模板对基准模型进行预训练,得到训练好的预训练模型;基于所述第二训练样本数据和所述多个结构化提示器模板对预训练模型进行微调训练,得到训练好的信息抽取模型;其中,所述信息抽取模型用于基于所构建的结构化提示器模板的提示,从输入文本数据抽取与所述多个联合信息抽取任务分别对应的结构化语言。2.如权利要求1所述的信息抽取模型训练方法,其特征在于,所述结构化提示器模板包括定位操作提示和/或关联操作提示;其中,所述定位操作提示是用于获取文本数据中的目标信息块的提示;所述关联操作提示是用于获取文本数据中的关联信息块的提示,所述关联信息块用于指示不同信息块之间的关联。3.如权利要求2所述的信息抽取模型训练方法,其特征在于:所述定位操作提示包括至少一个定位操作提示内容,每个定位操作提示内容由定位操作信息和定位操作提示文本构成;所述关联操作提示包括至少一个关联操作提示内容,每个关联操作提示内容由关联操作信息和关联操作提示文本构成。4.如权利要求1所述的信息抽取模型训练方法,其特征在于,针对每个联合信息抽取任务构建对应的结构化提示器模板的具体实现方式有:确定联合信息抽取任务需要识别的内容;对所确定的需要识别的内容进行分类,获得与定位操作提示对应的定位操作提示文本以及与关联操作提示对应的关联操作提示文本;分别对定位操作提示文本和关联操作提示文本分配定位操作信息以及关联操作信息,构成与联合信息抽取任务对应的结构化提示器模板。5.如权利要求1所述的信息抽取模型训练方法,其特征在于,所述第一训练样本数据和所述第二训练样本数据均包括正样本;其中,所述正样本包括文本数据和与文本数据对应的多个正确结构化语言标签,所述多个正确结构化语言标签是针对所述多个联合信息抽取任务分别设置的,所述正确结构化语言标签是根据对应结构化提示器模板的提示而具有正确内容的结构化语言。6.如权利要求5所述的信息抽取模型训练方法,其特征在于,所述第一训练样本数据和所述第二训练样本数据还均包括基于所述正样本生成的负样本;其中,所述负样本包括文本数据以及与文本数据对应的错误结构化语言标签,所述错误结构化语言标签是对正样本的正确结构化语言标签的内容产生随机错误而产生的结构化语言。
7.如权利要求1所述的信息抽取模型训练方法,其特征在于,所述预训练包括:文本数据至结构化语言预训练,用于通过所述基准模型基于输入的结构化提示器模板的提示对输入的第一文本数据进行结构化信息抽取处理,得到第一结构化语言;结构化语言生成预训练,用于将删除了部分结构化语言的第一结构化语言标签作为输入,通过所述基准模型对所述删除了部分结构化语言的第一结构化语言标签进行补全处理,得到补全的结构化语言;以及语义编码预训练,用于将抹除了部分数据的第一文本数据作为输入,通过所述基准模型对所述抹除了部分数据的第一文本数据执行文本预测处理,得到预测出的所述部分数据。8.如权利要求7所述的信息抽取模型训练方法,其特征在于,所述基准模型包括编码器和解码器,其中,基于所述第一训练样本数据和所述多个结构化提示器模板对基准模型进行预训练的步...
【专利技术属性】
技术研发人员:丁隆耀,蒋宁,吴海英,李宽,吕乐宾,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。