【技术实现步骤摘要】
基于BERT模型的司法领域命名实体识别方法和系统
[0001]本专利技术涉及一种基于BERT模型的司法领域命名实体识别方法和系统,属于文本数据或知识抽取
技术介绍
[0002]随着大数据时代的到来,信息呈现爆炸式增长,如何从海量的信息数据中获取有效信息正是知识抽取技术的研究内容。命名实体识别技术作为知识抽取的重要子任务之一,正受到越来越广泛地关注。司法领域作为典型的知识密集型行业,在司法工作中出现的法律法规,案例以及当事人这些实体信息都是需要进行存储的。传统依靠人工手动进行提取,整合信息费时费力,且难以满足海量信息抽取需求。因此,设计模型自动识别司法领域命名实体已成为目前司法行业的热点问题。
[0003]目前命名实体方法主要分为三大类:
[0004]第一类是基于规则的方法,该方法首先构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。然后,将规则与文本字符串进行匹配,识别命名实体;第二类是基于统计的方法,该方法利用完全标注或部分标注的语料进行模型训练,主要涉及训练语料标注、特征定义和模型训练三个方面。第三类是基于深度学习的方法,该方法直接以文本中词的向量为输入,通过神经网络实现端到端的命名实体识别,不再依赖人工定义的特征。
[0005]但是训练过程中大都面向结构化数据,需要大规模良好标注的数据集。面对司法领域的海量文本语料,靠人工标注标签的方法显然无法实现。为了解决标签稀缺的问题,现有相关研究通常采用远程监督的方法加以解决。该方法通过将文本与现有知识库进行对齐,以此获取数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT模型的司法领域命名实体识别方法,其特征在于,包括如下步骤:步骤1)选取司法领域交通事故判决书作为数据集,采用远程监督的方法对数据集进行处理,实现对数据集的标注;步骤2)将标注后数据集的部分数据输入预训练模型BERT
‑
CNN进行微调,微调过程中采取早停措施,使用BERT
‑
CNN模型为所有数据预测一组软标签;步骤3)将新生成的带软标签的数据集替换1)中利用远程监督方法生成的数据集;设计一个teacher
‑
student框架,以不断训练迭代的方式进一步提高召回率;其中,student模型由步骤2)中训练软标签数据集的模型作为初始化模型,teacher模型由前一次迭代中的student模型进行更新;步骤4)将经由步骤3)训练后得到的基于BERT模型的命名实体识别方法模型应用于司法领域非结构化案件文本,自动识别出相关实体。2.根据权利要求1所述的基于BERT模型的司法领域命名实体识别方法,其特征在于,其中,步骤1)中采用远程监督方法处理司法领域数据集包含以下过程:1
‑
1)从网上爬取大量非结构化的司法领域文本数据;1
‑
2)对1
‑
1)中爬取到的文本数据进行分句、分词,然后借助命名实体识别工具对分词后的文本数据以句子为单位进行实体标注;1
‑
3)利用外部知识库作为监督源,将步骤1
‑
2)中所标注的实体与知识库中的概念进行匹配,并从多个在线资源中搜集相关词典信息,为句子中的实体打上标签。3.根据权利要求1所述的基于BERT模型的司法领域命名实体识别方法,其特征在于,步骤2)中对预训练模型BERT
‑
CNN的微调是指:将步骤1)中标注后的数据集进行编码,利用预训练模型BERT
‑
CNN完成句子的语义特征提取;具体包含以下步骤:2
‑
1)将步骤1)中标注后的数据集输入模型并将其转化成三个词嵌入相加而成的输入向量形式,即BERT模型要求的输入形式;三个词嵌入相加而成的输入向量形式,其中:第一个是利用WordPiece模型将输入语句转变成词向量形式;第二个是利用Segment Embedding(段嵌入)判断两个句子间是否存在上下文的关联关系;第三个是通过Position Embedding(位置嵌入)得到词的位置信息;2
‑
2)由于训练时每次输入的语句长度不一致,所以当输入的语句长度小于预先定义的最大长度时,需要进行填充0的操作;训练时采用掩码语言模型机制,通过随机遮盖句子中的一部分词,用实例的上下文来做预测;最后,将输入向量输入到BERT模型中得到每个句子对应的低维向量表示;2
‑
3)将经由BERT模型处理后的低维向量接入CNN网络模型中得到最终的语义特征向量;其中,CNN网络模型包括三个卷积模块和激活函数;通过CNN网络模型的池化操作对2
‑
2)中得到的特征向量降维,接着通过线性层和一个dropout层以缓解网络的过拟合;CNN网络模型训练过程中,同时采用早停机制,具体表现在当模型在验证...
【专利技术属性】
技术研发人员:刘奇,施健伟,潘付军,
申请(专利权)人:南京通达海科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。