System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据增强与改进小样本学习的法律文书命名实体识别方法技术_技高网

一种基于数据增强与改进小样本学习的法律文书命名实体识别方法技术

技术编号:41289713 阅读:7 留言:0更新日期:2024-05-11 09:39
一种基于数据增强与改进小样本学习的法律文书命名实体识别方法,包括:通过数据增强方法实现训练样本数据量的扩大;通过Bert预训练模型实现文本数据字向量的获取;通过NNshot模型对文本数据特征的学习实现未知文本中关键信息的识别;通过基于标签对规则的维特比解码器捕获类别之间的依赖关系实现对NNshot模型识别结果的修正。研究结果表明,本发明专利技术所提出的命名实体识别方法可在缺少大量法律文书标注数据情况下,可实现对海量法律文书关键信息的抽取,具有一定的实用性。

【技术实现步骤摘要】

本专利技术应用于法律文书的命名实体识别,涉及在标注样本量不足的情况下对海量法律文书中命名实体的识别方法。


技术介绍

1、命名实体识别(ner)是指在非结构化文本中识别具有特定意义或者指代性强的实体,如人名、组织、地点等。法律文书命名实体识别是提取法律文件中的关键信息,如案件中的人名、法院名称、法律条款等。全国各地每分钟都有海量的法律案件发生,对于法官来说,这些案件的细节都十分重要。通常法律案件的分析与整理是由法官助理来完成的,但随着案件数量的增加,人工无法高效率地完成这些法律案件的分析与整理,而且将耗费巨大的人力资源。因此,通过人工智能方法对法律文书中关键信息的正确提取,可进一步提高法官办案的效率,并减少人力资源的消耗。

2、目前,随着各种算法和模型不断更迭,深度学习技术逐渐兴起,研究者们开始使用深度学习方法处理命名实体识别问题。例如,循环神经网络模型(rnn)、双向长短期记忆神经网络模型(bilstm)与基于条件随机场的双向长短期记忆神经网络模型(bilstm-crf),其中使用bilstm-crf模型取得了最好的效果。

3、通过标注大量的法律文书数据,训练针对法律文书的命名实体识别模型,可实现法律文书中关键信息的提取,但该方法将耗费巨大的人力标注成本。针对该问题,可采用小样本学习方法进行处理,利用已有的大规模通用数据集进行学习,再将这些知识迁移到法律文书的命名实体识别任务上。实现在不依赖大量法律文书标注数据的条件下对法律文书的实体进行有效识别。


技术实现思路

1、为克服因法律文书缺乏足够的标注数据,导致无法训练出可靠的模型对海量法律文书中关键信息进行自动抽取的问题,本专利技术提出了一种基于数据增强与改进小样本学习的法律文书命名实体识别方法。该方法以中文命名实体识别数据集为源域数据,法律文书数据为目标域数据,通过bert预训练模型获取源域与目标域数据的字向量,利用nnshot模型对源域字向量数据特征进行学习,并将源域学到的知识应用到目标域数据中,使得在有少量法律文书标注数据条件下,实现对法律文书中大量命名实体的识别。

2、本专利技术采用的技术方案为:

3、一种基于数据增强与改进小样本学习的法律文书命名实体识别方法,通过小样本学习方法,将公开数据集中学到的知识应用到法律文书领域,实现法律文书中大量命名实体的识别,具体包括以下步骤:

4、步骤1:将中文细粒度命名实体识别数据集中的文本按类进行分割,分割后的每个子文本只包含一种实体和其它无关字。采用循环使用无关字的数据增强方式,将其中人名类、电影类、书籍类与景点类子文本中的实体用中文词库中的动物类实体替换;将政府类、组织类与职位类子文本中的实体用中文词库中的食物类实体替换;将地址类子文本中的地址实体用中文词库中的地址类实体替换;将公司类子文本中的公司实体用中文词库中的公司类实体替换;将游戏类子文本中的游戏实体用中文词库中的游戏类实体替换,扩充得到8000份动物类子文本、食物类子文本、地址类子文本、公司类子文本与游戏类子文本。

5、将通过数据增强得到的5类子文本作为源域数据,并将其随机分成支持集和查询集,每个支持集含有5个类别的子文本且每个类别含有若干个被标注的样本,查询集中同样含有5个类别的子文本且不同与支持集中的子文本。法律文书数据作为目标域数据,其中实体包括法院名、人名、时间、法典与条例。同理,将目标域数据格式分成支持集和查询集,支持集中为实际应用中具有标签的少量法律文书数据,查询集中为实际应用中无标签的数据。

6、步骤2:通过bert字编码层中的标记嵌入器将源域数据转化成字向量,再将字向量输入到nnshot网络中进行训练。源域数据支持集由n个带标签的实例组成:其中表示d维的字向量,yt∈{1,2,...,m}表示字向量的标签;查询集由k个标记对象组成:nnshot在训练过程中,给定一个查询实例和一个支持集计算查询实例字向量和支持集中所有字向量之间的相似度,在支持集中找到与查询实例字向量最相似的字向量,该字向量的类别即是查询实例向量的类别,然后赋予查询实例x对应的标签,其计算方式如下。

7、

8、

9、式中,y*是预测标签,c是标签类别,sc是类别为c的支持集集合,是与之间的欧氏距离。

10、步骤3:将训练得到的nnshot模型知识迁移到目标域数据,并在目标域数据上进行进一步训练与调整。通过对目标域数据结构的分析构建转移矩阵,并使用基于该转移矩阵的维特比解码器,对目标域数据的识别结果进行调整。该方法首先将句子中两个相邻字符的标签进行组合,若句子字符的标签总数若为奇数,则用无关标签o进行填补,保证句子中最后一个字符的标签也能组成字符对,然后再根据标签对之间的规律制定以下规则:

11、1)定义六个类别的标签:p(人名),t(时间),c(法院名),l(法典),r(条例),o(无关字);

12、2)p、t、c、l、r类别的实体长度均是两个字及以上,不会出现只有一个字或两个相同类别的字中间夹杂其他类别字或无关字的情况;

13、3)c、l、r类别的实体长度均是三个字及以上,不会出现三个相同类别的字中间夹杂其他类别字或无关字的情况。

14、根据以上规则规律,构建转移矩阵。转移矩阵由转移分数组成,转移分数表示从一个标签到另一个标签的概率。如果某种转移是不可能发生的,就设置为一个很大的负值;如果某种转移是可能发生的,就设置为0。

15、步骤4:通过nnshot模型获得目标域中每个字向量的发射概率,使用基于标签对规则的维特比解码器,推理出最优的实体序列,对nnshot模型的识别结果做二次修正。发射概率的计算以及维特比算法对初步结果调整的推理计算方式如下:

16、

17、

18、其中p(y=c|x)表示每个实例的发射概率,c表示类别,x表示实例,yt表示t状态下的类别,y*表示最后的识别结果。

19、本专利技术相比现有技术,具有以下有益效果:

20、1、相比基于循环神经的识别方法,本专利技术提出的改进小样本学习方法不依赖大量的法律文书标注数据,减少人力标注成本;

21、2、相比其它小样本学习方法,本专利技术提出的改进小样本学习方法,可对识别结果进行二次修正,预测精度更高,可靠性更强;

22、3、本专利技术提出的基于数据增强与改进小样本学习的法律文书命名实体识别方法具有一定的实用性。

本文档来自技高网
...

【技术保护点】

1.一种基于数据增强与改进小样本学习的法律文书命名实体识别方法,包括以下步骤:

2.实施权利要求1的一种基于数据增强与改进小样本学习的法律文书命名实体识别方法,其特征在于:包括依次连接的数据增强模块、Bert字编码模块、NNshot模块、维特比解码器模块,其中,

【技术特征摘要】

1.一种基于数据增强与改进小样本学习的法律文书命名实体识别方法,包括以下步骤:

2.实施权利要求1的一种基于数据增强与改进小样...

【专利技术属性】
技术研发人员:刘强冯俊瑶傅金波杨海召周国民
申请(专利权)人:浙江警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1