【技术实现步骤摘要】
一种基于Bert+BiLSTM+CRF的知识元自动抽取方法
本专利技术涉及法律知识元抽取
,尤其涉及一种基于Bert+BiLSTM+CRF的知识元自动抽取方法。
技术介绍
知识抽取是对蕴涵于文本文献中的知识进行识别、理解、筛选和格式化,从而把文本文献中的各类知识(包括常识知识、专家知识、行业领域知识等)抽取出来,即基于给定的本体从文本中抽取与既定本体相匹配的知识内容,并以一定形式存储形成知识元库。知识抽取是信息资源建设中的关键环节,因此知识抽取在行业领域知识库构建过程发挥着举足轻重的作用。目前知识抽取通常有两种实现方法,一种是基于规则的知识元抽取方法,一种是基于统计算法的知识元抽取方法。其中基于规则的方法替换功能性较差且容易性能问题;基于统计算法的方法,常用的有隐马尔可夫HMM、条件随机场CRF等序列标注方法,通常对语料的依赖很强,需要进行大量的语料标注。然而标注数据,可以说是AI模型训练里最艰巨的一项工作了。自然语言处理的数据标注更是需要投入大量人力。相对计算机视觉的图像标注,文本的标注通常没 ...
【技术保护点】
1.一种基于Bert+BiLSTM+CRF的知识元自动抽取方法,其特征在于,所述方法包括/n基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;/n所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;/n所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert-PMC;/n以及/n基于Bert-PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知 ...
【技术特征摘要】
1.一种基于Bert+BiLSTM+CRF的知识元自动抽取方法,其特征在于,所述方法包括
基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;
所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;
所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert-PMC;
以及
基于Bert-PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert-BiLSTM-CRF;
所述知识元抽取阶段依次调用训练好的Bert-PMC和Bert-BiLSTM-CRF进行法律知识元抽取。
2.如权利要求1所述的基于Bert+BiLSTM+CRF的知识元自动抽取方法,其特征在于,所述基于Bert的篇章段落标引模型Bert-PMC的构建包括以下步骤:
步骤A1通过分析法律文书的主要内容和篇章结构特点,将文书的篇章段落结构划分为七种特征类别,以自然段落为单位对整篇文书所有段落进行语料标注;
步骤A2利用Bert中文向量模型训练基于Bert的篇章段落标引模型,通过模型参数调优得到最终的基于Bert的篇章段落标引模型Bert-PMC。
3.如权利要求1所述的基于Bert+BiLSTM+CRF的知识元自动抽取方法,其特征在于,所述基于Bert+BiLSTM+CRF的知识元抽取模型Bert-BiLSTM-CRF的构建包括以下步骤:
步骤B1根据法律行业知识框架,并结合法律文书的篇章结构特征,以句子为单位对整篇文书所有段落进行知识元语料标注;
步骤B2利用Bert中文向量模型,训练基于Bert+BiLSTM+CRF的知识元抽取模型,通过模型参数调优得到最终的基于Bert+BiLSTM+CRF的知识元抽取模型Bert-BiLSTM-C...
【专利技术属性】
技术研发人员:李佳媛,刘晓蒙,罗思明,
申请(专利权)人:同方知网北京技术有限公司,同方知网数字出版技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。