基于Mixup和BQRNN的法律命名实体识别方法技术

技术编号：33139237 阅读：11 留言：0更新日期：2022-04-22 13:48

本发明专利技术公开了一种基于Mixup和BQRNN的法律文书的命名实体识别方法，包括步骤：使用BERT预训练模型对训练集的法律判决文书进行向量化处理；使用Mixup数据增强方法在词向量表示层面对训练集规模进行扩充；使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理，提取法律文本中带有上下文特征的深层特征向量，并输出相应的实体标签序列；使用CRF条件随机场解码，最后将概率最大的实体标签序列，作为训练结果输出，并生成相应训练模型；将训练模型在测试集上进行测试，调整训练模型参数信息，直至选取稳定前，指标性能最好的识别模型；输入中文法律文书案列，识别模型自动进行判断并输出法律文书中的法律实体。行判断并输出法律文书中的法律实体。行判断并输出法律文书中的法律实体。

全部详细技术资料下载

【技术实现步骤摘要】
基于Mixup和BQRNN的法律命名实体识别方法

[0001]本专利技术涉及中文语言处理及识别
，尤其涉及基于Mixup数据增强以及BQRNN准循环神经网络模型的法律命名实体识别方法。

技术介绍

[0002]使用人工智能技术建立智慧法院系统，能够帮助法务人员对相似案件作出裁决，提高效率。要对法律文书进行语义理解，首先要解决的就是法律实体的识别问题。NER(Named Entity Recognition，命名实体识别)是指从文本中抽取特定的命名实体的过程，是一个序列标注的分类任务，对每一个输入的字符，赋予可能性最大的标注序列。
[0003]现有的中文命名实体识别方法主要分为机器学习方法和深度学习方法。机器学习方法需要预先设计规则模式，然后通过字符串搜索和匹配的手段实现实体的识别。但易受预先规则的限制，可移植性较差，对未登录词的识别效果不佳。深度学习方法相比机器学习方法具有更高的准确性，这些模型通常有数百万个参数，因此需要大量数据进行训练，以避免过拟合和更好的模型泛化。然而，收集大量带注释的数据样本既耗时又昂贵。法律领域作为特殊领域，数据语料稀缺，数据质量和数据数量都难以达到很好的预期。
[0004]数据增强则是一种旨在解决这种数据饥饿问题的技术。生成合成数据样本作为用于正则化学习模型的附加训练数据。数据增强在计算机视觉和语音识别中得到了积极而成功的应用。然而，这些方法中的大多数依赖于人类知识进行标签不变的数据转换，如图像缩放、翻转和旋转。与图像不同的是，自然语言中并没有简单的标签不变变换规则。通...

【技术保护点】

【技术特征摘要】
1.一种基于Mixup和BQRNN的法律文书的命名实体识别方法，其特征在于，包括以下步骤：S1、使用BERT预训练模型对训练集的法律判决文书进行向量化处理，构建带有上下文语义的词向量表示；S2、使用Mixup数据增强方法，对生成的词向量表示进行处理，在词向量表示层面对训练集规模进行扩充，生成增强后的词向量表示的训练集；S3、使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理，提取法律文本中带有上下文特征的深层特征向量，并输出相应的实体标签序列；S4、使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码，最后将概率最大的实体标签序列，作为训练结果输出，并生成相应训练模型；S5、将训练模型在测试集上进行测试，并根据测试结果，调整训练模型参数信息，再次训练，直至测试集测试的指标水平趋于稳定，选取稳定前，指标性能最好的识别模型；S6、输入中文法律文书案列，识别模型自动进行判断并输出法律文书中的法律实体。2.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，在对法律判决文书进行向量化处理后，随机获取2个输入的句子i和j，通过设定的融合参数λ，分别从2个句子中获取两个片段；Beta分布获取融合参数λ，通过Mixup算法，生成新的特征向量embedding以及新的标签label，并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子；最后分别将新生成的句子替换回初始的2个句子，通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练，从而做到在不增加数据量的情况下，增加训练样本数量。3.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，将增强数据与过采样后的原始数据进行1:1混合，生成新的训练集。4.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，步骤S5中具体使用Optimizer优化器调整训练模型参数信息。5.根据权利要求1所述的基于Mixup和BQRNN的法律命名实体识别方法，其特征在于，步骤S4中，使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B，M，E，O”实体规则和“D，T，N，L”属性规则进行解码。6.一种基于Mixup和BQRNN的法律文书的命名实体识别系统，其特征...

【专利技术属性】
技术研发人员：李晓林，陈卓豪，危欢，徐港，
申请(专利权)人：武汉工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人