【技术实现步骤摘要】
base后接最优第二CRF层,所述最优第二预训练模型Bertbase是对初始第二预训练模型Bertbase进行微调得到的预训练模型Bertbase,所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层,N为自然数;
[0009]步骤105、将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。
[0010]可选地,在本专利技术上述各方法实施例中,在获取第一标注数据集之前还包括设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容,其中,第一信息抽取内容和第二信息抽取内容为key
‑
value结构,且第二信息抽取内容的key值属于第一抽取信息内容的value值。
[0011]可选地,在本专利技术上述各方法实施例中,所述方法采用的公开的预训练模型Bertbase的网络层数L=12,隐含层节点数H=768,self
‑
attentionhead数量A=12。
[0012]可选地,在本专利技术上述各方法实施例中,所述初始第二预训练模型Bertbase是将最优 ...
【技术保护点】
【技术特征摘要】
1.一种建立财税优惠政策的信息抽取模型的方法,其特征在于,所述方法包括:步骤101、获取第一标注数据集,其中,所述第一标注数据集是按照预先设置的第一信息抽取内容对财税优惠政策信息进行标注后生成的数据集;步骤102、将第一标注数据集输入初始第一层级信息抽取模型进行模型训练,生成最优第一层级信息抽取模型,其中,所述初始第一层级信息抽取模型是公开的预训练模型Bert base后接初始第一CRF层,所述最优第一层级信息抽取模型是最优第一预训练模型Bert base后接最优第一CRF层,所述最优第一预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一CRF层是对初始第一CRF层调整参数后得到的CRF层;步骤103、获取第二标注数据集,其中,所述第二标注数据集是按照预先设置的第二信息抽取内容对财税优惠政策信息进行标注后生成的数据集;步骤104、将第二标注数据集输入初始第二层级信息抽取模型进行模型训练,生成最优第二层级信息抽取模型,其中,所述初始第二层级信息抽取模型是初始第二预训练模型Bert base后接初始第二CRF层,所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级信息抽取模型是最优第二预训练模型Bert base后接最优第二CRF层,所述最优第二预训练模型Bert base是对初始第二预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层,N为自然数;步骤105、将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。2.根据权利要求1所述的方法,其特征在于,在获取第一标注数据集之前还包括设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容,其中,第一信息抽取内容和第二信息抽取内容为key
‑
value结构,且第二信息抽取内容的key值属于第一抽取信息内容的value值。3.根据权利要求1所述的方法,其特征在于,所述方法采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self
‑
attention head数量A=12。4.根据权利要求3所述的方法,其特征在于,所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。5.一种建立财税优惠政策的信息抽取模型的...
【专利技术属性】
技术研发人员:王亚平,林文辉,王志刚,刘振宇,杨硕,马兰,李瑞祥,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。