基于Mixup和BQRNN的法律命名实体识别方法技术

技术编号:33139237 阅读:11 留言:0更新日期:2022-04-22 13:48
本发明专利技术公开了一种基于Mixup和BQRNN的法律文书的命名实体识别方法,包括步骤:使用BERT预训练模型对训练集的法律判决文书进行向量化处理;使用Mixup数据增强方法在词向量表示层面对训练集规模进行扩充;使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;使用CRF条件随机场解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;将训练模型在测试集上进行测试,调整训练模型参数信息,直至选取稳定前,指标性能最好的识别模型;输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。行判断并输出法律文书中的法律实体。行判断并输出法律文书中的法律实体。

【技术实现步骤摘要】
基于Mixup和BQRNN的法律命名实体识别方法


[0001]本专利技术涉及中文语言处理及识别
,尤其涉及基于Mixup数据增强以及BQRNN准循环神经网络模型的法律命名实体识别方法。

技术介绍

[0002]使用人工智能技术建立智慧法院系统,能够帮助法务人员对相似案件作出裁决,提高效率。要对法律文书进行语义理解,首先要解决的就是法律实体的识别问题。NER(Named Entity Recognition,命名实体识别)是指从文本中抽取特定的命名实体的过程,是一个序列标注的分类任务,对每一个输入的字符,赋予可能性最大的标注序列。
[0003]现有的中文命名实体识别方法主要分为机器学习方法和深度学习方法。机器学习方法需要预先设计规则模式,然后通过字符串搜索和匹配的手段实现实体的识别。但易受预先规则的限制,可移植性较差,对未登录词的识别效果不佳。深度学习方法相比机器学习方法具有更高的准确性,这些模型通常有数百万个参数,因此需要大量数据进行训练,以避免过拟合和更好的模型泛化。然而,收集大量带注释的数据样本既耗时又昂贵。法律领域作为特殊领域,数据语料稀缺,数据质量和数据数量都难以达到很好的预期。
[0004]数据增强则是一种旨在解决这种数据饥饿问题的技术。生成合成数据样本作为用于正则化学习模型的附加训练数据。数据增强在计算机视觉和语音识别中得到了积极而成功的应用。然而,这些方法中的大多数依赖于人类知识进行标签不变的数据转换,如图像缩放、翻转和旋转。与图像不同的是,自然语言中并没有简单的标签不变变换规则。通常,句子中单词的细微变化会显著改变句子的意思。为此,NLP中流行的数据扩充方法旨在通过使用手工制作的本体或同义词替换来转换文本。然而,这种基于同义词的转换只能应用于词汇的一部分,因为具有完全或几乎相同含义的单词很少。

技术实现思路

[0005]本专利技术主要目的在于,提供一种基于Mixup和BQRNN的法律文书法律命名实体识别方法,通过大量的数据,训练一个的深度学习经验模型,对输入的中文法律文书中的命名实体自动进行识别,同时,通过对法律文书的特征向量进行Mixup数据增强操作,在保持较低的额外计算成本的基础上,使上述模型具有更高的鲁棒性和适用性。
[0006]本专利技术所采用的技术方案是:
[0007]提供一种基于Mixup和BQRNN的法律文书的命名实体识别方法,包括以下步骤:
[0008]S1、使用BERT预训练模型对训练集的法律判决文书进行向量化处理,构建带有上下文语义的词向量表示;
[0009]S2、使用Mixup数据增强方法,对生成的词向量表示进行处理,在词向量表示层面对训练集规模进行扩充,生成增强后的词向量表示的训练集;
[0010]S3、使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;
[0011]S4、使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;
[0012]S5、将训练模型在测试集上进行测试,并根据测试结果,调整训练模型参数信息,再次训练,直至测试集测试的指标水平趋于稳定,选取稳定前,指标性能最好的识别模型;
[0013]S6、输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。
[0014]接上述技术方案,在对法律判决文书进行向量化处理后,随机获取2个输入的句子i和j,通过设定的融合参数λ,分别从2个句子中获取两个片段; Beta分布获取融合参数λ,通过Mixup算法,生成新的特征向量embedding 以及新的标签label,并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子;最后分别将新生成的句子替换回初始的2个句子,通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练,从而做到在不增加数据量的情况下,增加训练样本数量。
[0015]接上述技术方案,将增强数据与过采样后的原始数据进行1:1混合,生成新的训练集。
[0016]接上述技术方案,步骤S5中具体使用Optimizer优化器调整训练模型参数信息。
[0017]接上述技术方案,步骤S4中,使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B,M,E,O”实体规则和“D, T,N,L”属性规则进行解码。
[0018]本专利技术还提供了一种基于Mixup和BQRNN的法律文书的命名实体识别系统,包括:
[0019]向量化模块,用于使用BERT预训练模型对训练集的法律判决文书进行向量化处理,构建带有上下文语义的词向量表示;
[0020]Mixup数据增强模块,用于使用Mixup数据增强方法,对生成的词向量表示进行处理,在词向量表示层面对训练集规模进行扩充,生成增强后的词向量表示的训练集;
[0021]BQRNN处理模块,用于使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;
[0022]CRF解码模块,用于使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;
[0023]模型训练模块,用于将训练模型在测试集上进行测试,并根据测试结果,调整训练模型参数信息,再次训练,直至测试集测试的指标水平趋于稳定,选取稳定前,指标性能最好的识别模型;
[0024]识别模块,用于输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。
[0025]接上述技术方案,Mixup数据增强模块具体用于在对法律判决文书进行向量化处理后,随机获取2个输入的句子i和j,通过设定的融合参数λ,分别从2个句子中获取两个片段;Beta分布获取融合参数λ,通过Mixup算法,生成新的特征向量embedding以及新的标签label,并选取新的特征向量 embedding附近距离最近的一个字符token作为新生成的句子;最后分别将新生成的句子替换回初始的2个句子,通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练,从而做到在不增加数据量的情况下,增加训练样本数量。
[0026]接上述技术方案,Mixup数据增强模块具体将增强数据与过采样后的原始数据进行1:1混合,生成新的训练集。
[0027]接上述技术方案,模型训练模块具体使用Optimizer优化器调整训练模型参数信息。
[0028]本专利技术还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行权利要求1

5中任一项所述的基于Mixup和 BQRNN的法律命名实体识别方法。
[0029]本专利技术产生的有益效果是:本专利技术通过使用Mi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,包括以下步骤:S1、使用BERT预训练模型对训练集的法律判决文书进行向量化处理,构建带有上下文语义的词向量表示;S2、使用Mixup数据增强方法,对生成的词向量表示进行处理,在词向量表示层面对训练集规模进行扩充,生成增强后的词向量表示的训练集;S3、使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;S4、使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;S5、将训练模型在测试集上进行测试,并根据测试结果,调整训练模型参数信息,再次训练,直至测试集测试的指标水平趋于稳定,选取稳定前,指标性能最好的识别模型;S6、输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。2.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法,其特征在于,在对法律判决文书进行向量化处理后,随机获取2个输入的句子i和j,通过设定的融合参数λ,分别从2个句子中获取两个片段;Beta分布获取融合参数λ,通过Mixup算法,生成新的特征向量embedding以及新的标签label,并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子;最后分别将新生成的句子替换回初始的2个句子,通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练,从而做到在不增加数据量的情况下,增加训练样本数量。3.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法,其特征在于,将增强数据与过采样后的原始数据进行1:1混合,生成新的训练集。4.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法,其特征在于,步骤S5中具体使用Optimizer优化器调整训练模型参数信息。5.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法,其特征在于,步骤S4中,使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B,M,E,O”实体规则和“D,T,N,L”属性规则进行解码。6.一种基于Mixup和BQRNN的法律文书的命名实体识别系统,其特征...

【专利技术属性】
技术研发人员:李晓林陈卓豪危欢徐港
申请(专利权)人:武汉工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1