一种建立财税优惠政策的信息抽取模型的方法和系统技术方案

技术编号:33346404 阅读:34 留言:0更新日期:2022-05-08 09:42
本发明专利技术实施例公开了一种建立财税优惠政策的信息抽取模型的方法和系统,所述方法包括:获取第一标注数据集,根据第一标注数据集生成最优第一层级信息抽取模型;获取第二标注数据集,根据第二标注数据集生成最优第二层级信息抽取模型,以及将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型,其中,最优第一层级信息抽取模型和最优第二层级信息抽取模型都是经过微调的Bert base后接CRF层。所述方法和系统通过为财税优惠政策信息的抽取设计一种双层级的Bert+CRF模型,有效解决了对信息进行识别时,由于自定义的种类多,且标注数据少带来的数据稀疏问题,有效提升了信息抽取的效率。率。率。

【技术实现步骤摘要】
base后接最优第二CRF层,所述最优第二预训练模型Bertbase是对初始第二预训练模型Bertbase进行微调得到的预训练模型Bertbase,所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层,N为自然数;
[0009]步骤105、将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。
[0010]可选地,在本专利技术上述各方法实施例中,在获取第一标注数据集之前还包括设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容,其中,第一信息抽取内容和第二信息抽取内容为key

value结构,且第二信息抽取内容的key值属于第一抽取信息内容的value值。
[0011]可选地,在本专利技术上述各方法实施例中,所述方法采用的公开的预训练模型Bertbase的网络层数L=12,隐含层节点数H=768,self

attentionhead数量A=12。
[0012]可选地,在本专利技术上述各方法实施例中,所述初始第二预训练模型Bertbase是将最优第一预训练模型Ber本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种建立财税优惠政策的信息抽取模型的方法,其特征在于,所述方法包括:步骤101、获取第一标注数据集,其中,所述第一标注数据集是按照预先设置的第一信息抽取内容对财税优惠政策信息进行标注后生成的数据集;步骤102、将第一标注数据集输入初始第一层级信息抽取模型进行模型训练,生成最优第一层级信息抽取模型,其中,所述初始第一层级信息抽取模型是公开的预训练模型Bert base后接初始第一CRF层,所述最优第一层级信息抽取模型是最优第一预训练模型Bert base后接最优第一CRF层,所述最优第一预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一CRF层是对初始第一CRF层调整参数后得到的CRF层;步骤103、获取第二标注数据集,其中,所述第二标注数据集是按照预先设置的第二信息抽取内容对财税优惠政策信息进行标注后生成的数据集;步骤104、将第二标注数据集输入初始第二层级信息抽取模型进行模型训练,生成最优第二层级信息抽取模型,其中,所述初始第二层级信息抽取模型是初始第二预训练模型Bert base后接初始第二CRF层,所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级信息抽取模型是最优第二预训练模型Bert base后接最优第二CRF层,所述最优第二预训练模型Bert base是对初始第二预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层,N为自然数;步骤105、将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。2.根据权利要求1所述的方法,其特征在于,在获取第一标注数据集之前还包括设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容,其中,第一信息抽取内容和第二信息抽取内容为key

value结构,且第二信息抽取内容的key值属于第一抽取信息内容的value值。3.根据权利要求1所述的方法,其特征在于,所述方法采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self

attention head数量A=12。4.根据权利要求3所述的方法,其特征在于,所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。5.一种建立财税优惠政策的信息抽取模型的...

【专利技术属性】
技术研发人员:王亚平林文辉王志刚刘振宇杨硕马兰李瑞祥
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1