基于BERT模型的司法领域命名实体识别方法和系统技术方案

技术编号:33048325 阅读:41 留言:0更新日期:2022-04-15 09:32
本发明专利技术公开一种基于BERT模型的司法领域命名实体识别方法和系统。选取司法领域交通事故判决书作为数据集,采用远程监督的方法对数据集进行处理,实现对数据集的标注;将部分标注后的数据集输入预训练模型BERT

【技术实现步骤摘要】
基于BERT模型的司法领域命名实体识别方法和系统


[0001]本专利技术涉及一种基于BERT模型的司法领域命名实体识别方法和系统,属于文本数据或知识抽取


技术介绍

[0002]随着大数据时代的到来,信息呈现爆炸式增长,如何从海量的信息数据中获取有效信息正是知识抽取技术的研究内容。命名实体识别技术作为知识抽取的重要子任务之一,正受到越来越广泛地关注。司法领域作为典型的知识密集型行业,在司法工作中出现的法律法规,案例以及当事人这些实体信息都是需要进行存储的。传统依靠人工手动进行提取,整合信息费时费力,且难以满足海量信息抽取需求。因此,设计模型自动识别司法领域命名实体已成为目前司法行业的热点问题。
[0003]目前命名实体方法主要分为三大类:
[0004]第一类是基于规则的方法,该方法首先构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。然后,将规则与文本字符串进行匹配,识别命名实体;第二类是基于统计的方法,该方法利用完全标注或部分标注的语料进行模型训练,主要涉及训练语料标注、特征定义和模型训练三个方面。第三类是基于深度学习的方法,该方法直接以文本中词的向量为输入,通过神经网络实现端到端的命名实体识别,不再依赖人工定义的特征。
[0005]但是训练过程中大都面向结构化数据,需要大规模良好标注的数据集。面对司法领域的海量文本语料,靠人工标注标签的方法显然无法实现。为了解决标签稀缺的问题,现有相关研究通常采用远程监督的方法加以解决。该方法通过将文本与现有知识库进行对齐,以此获取数据标签。但是存在噪音标注的问题,导致匹配过程产生的标签质量较低。同时,现有模型大都采用传统神经网络模型进行编码,编码时只考虑语言单个方向上的依赖关系,导致语义特征提取存在不足。因此,如何提高语义特征提取能力并消除噪音标注,是司法领域命名实体识别方法亟需解决的问题。

技术实现思路

[0006]专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于BERT模型的司法领域命名实体识别方法和系统,能够提高语义特征提取能力,并且针对远程监督方法带来的噪音标注的问题。
[0007]技术方案:一种基于BERT模型的司法领域命名实体识别方法,包括如下步骤:
[0008]步骤1)选取司法领域交通事故判决书作为数据集,采用远程监督的方法对数据集进行处理,实现对数据集的标注。
[0009]步骤2)将标注后数据集的部分数据输入预训练模型BERT

CNN进行微调,从而转移BERT中的语义知识,改善远程监督的预测质量。同时,微调过程中采取早停措施,以防止模型对不完整的标签数据产生过拟合的问题。最后,使用BERT

CNN模型为所有数据预测一组
软标签。
[0010]步骤3)将新生成的带软标签的数据集替换1)中利用远程监督方法生成的数据集。为了提高预测准确度,设计一个teacher

student框架,以不断训练迭代的方式进一步提高召回率。其中,student模型由步骤2)中训练软标签数据集的模型作为初始化模型,teacher模型由前一次迭代中的student模型进行更新。
[0011]步骤4)将经由步骤3)训练后得到的基于BERT模型的命名实体识别方法模型应用于司法领域非结构化案件文本,自动识别出相关实体。
[0012]其中,步骤1)中采用远程监督方法处理司法领域数据集包含以下过程:
[0013]1‑
1)从网上爬取大量非结构化的司法领域文本数据。
[0014]1‑
2)利用现有分词工具,对1

1)中爬取到的文本数据进行分句、分词,然后借助命名实体识别工具对分词后的文本数据以句子为单位进行实体标注。
[0015]1‑
3)利用外部知识库作为监督源,将步骤1

2)中所标注的实体与知识库(如Wikipedia,YAGO等)中的概念进行匹配,并从多个在线资源中搜集相关词典信息,为句子中的实体打上标签。
[0016]其中,步骤2)中对预训练模型BERT

CNN的微调是指:将步骤1)中标注后的数据集进行编码,利用预训练模型BERT

CNN完成句子的语义特征提取。具体包含以下步骤:
[0017]2‑
1)将步骤1)中标注后的数据集输入模型并将其转化成三个词嵌入相加而成的输入向量形式,即BERT模型要求的输入形式(BERT

CNN是将BERT跟CNN先后组合在一起,输入语料先通过BERT模型)。三个词嵌入相加而成的输入向量形式,其中:第一个是利用WordPiece模型将输入语句转变成词向量形式;第二个是利用Segment Embedding(段嵌入)判断两个句子间是否存在上下文的关联关系;第三个是通过Position Embedding(位置嵌入)得到词的位置信息。
[0018]2‑
2)由于训练时每次输入的语句长度不一致,所以当输入的语句长度小于预先定义的最大长度(max_length)时,需要进行填充0的操作。训练时采用Masked Language Model(掩码语言模型)机制,掩码语言模型可以理解为完型填空,通过随机遮盖句子中的一部分词,用实例的上下文来做预测。其中保证遮盖处80%的时间采用[mask],10%的时间是随机取一个词来代替mask的词,10%的时间保持不变。最后,将输入向量输入到BERT模型中得到每个句子对应的低维向量表示。
[0019]2‑
3)将经由BERT模型处理后的低维向量接入CNN网络模型中得到最终的语义特征向量。其中,CNN网络模型包括三个卷积模块和激活函数。通过CNN网络模型的池化操作对2

2)中得到的特征向量降维,接着通过线性层和一个dropout层以缓解网络的过拟合。CNN网络模型训练过程中,同时采用早停机制,具体表现在当模型在验证集上的表现开始下降时,立即停止训练,防止模型对数据的过拟合,提高对数据的泛化能力。其中,激活函数表示为:
[0020][0021]v表示网络结构中的特征向量。
[0022]2‑
4)利用步骤2

3)微调好得到的BERT

CNN模型对整个数据集进行训练,采用softmax分类器对处理后的语义特征向量进行分类,为所有数据预测一组软标签。
[0023]步骤3)中构建teacher

student框架具体包括:
[0024]3‑
1)将经过数据集微调后的模型作为初始化teacher模型,表示为将未经微调的预训练模型BERT

CNN直接训练的模型初始化为student模型,表示为
[0025]3‑
2)命名实体识别任务是将文本中的命名实体分类为预定实体类型的过程。形式上给定一个带有N个tokens(标注)的句子,实体的标注与实体类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的司法领域命名实体识别方法,其特征在于,包括如下步骤:步骤1)选取司法领域交通事故判决书作为数据集,采用远程监督的方法对数据集进行处理,实现对数据集的标注;步骤2)将标注后数据集的部分数据输入预训练模型BERT

CNN进行微调,微调过程中采取早停措施,使用BERT

CNN模型为所有数据预测一组软标签;步骤3)将新生成的带软标签的数据集替换1)中利用远程监督方法生成的数据集;设计一个teacher

student框架,以不断训练迭代的方式进一步提高召回率;其中,student模型由步骤2)中训练软标签数据集的模型作为初始化模型,teacher模型由前一次迭代中的student模型进行更新;步骤4)将经由步骤3)训练后得到的基于BERT模型的命名实体识别方法模型应用于司法领域非结构化案件文本,自动识别出相关实体。2.根据权利要求1所述的基于BERT模型的司法领域命名实体识别方法,其特征在于,其中,步骤1)中采用远程监督方法处理司法领域数据集包含以下过程:1

1)从网上爬取大量非结构化的司法领域文本数据;1

2)对1

1)中爬取到的文本数据进行分句、分词,然后借助命名实体识别工具对分词后的文本数据以句子为单位进行实体标注;1

3)利用外部知识库作为监督源,将步骤1

2)中所标注的实体与知识库中的概念进行匹配,并从多个在线资源中搜集相关词典信息,为句子中的实体打上标签。3.根据权利要求1所述的基于BERT模型的司法领域命名实体识别方法,其特征在于,步骤2)中对预训练模型BERT

CNN的微调是指:将步骤1)中标注后的数据集进行编码,利用预训练模型BERT

CNN完成句子的语义特征提取;具体包含以下步骤:2

1)将步骤1)中标注后的数据集输入模型并将其转化成三个词嵌入相加而成的输入向量形式,即BERT模型要求的输入形式;三个词嵌入相加而成的输入向量形式,其中:第一个是利用WordPiece模型将输入语句转变成词向量形式;第二个是利用Segment Embedding(段嵌入)判断两个句子间是否存在上下文的关联关系;第三个是通过Position Embedding(位置嵌入)得到词的位置信息;2

2)由于训练时每次输入的语句长度不一致,所以当输入的语句长度小于预先定义的最大长度时,需要进行填充0的操作;训练时采用掩码语言模型机制,通过随机遮盖句子中的一部分词,用实例的上下文来做预测;最后,将输入向量输入到BERT模型中得到每个句子对应的低维向量表示;2

3)将经由BERT模型处理后的低维向量接入CNN网络模型中得到最终的语义特征向量;其中,CNN网络模型包括三个卷积模块和激活函数;通过CNN网络模型的池化操作对2

2)中得到的特征向量降维,接着通过线性层和一个dropout层以缓解网络的过拟合;CNN网络模型训练过程中,同时采用早停机制,具体表现在当模型在验证...

【专利技术属性】
技术研发人员:刘奇施健伟潘付军
申请(专利权)人:南京通达海科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1