司法文书段落分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24939065 阅读:15 留言:0更新日期:2020-07-17 21:09
本发明专利技术涉及司法文书段落分类方法、装置、计算机设备及存储介质,该方法包括获取司法文书;对司法文书进行字符切分,以得到字符矩阵;根据字符矩阵进行向量提取,以得到句子表示向量;将句子表示向量进行拼接,以得到文书表示向量;将文书表示向量输入分类模型中进行分类,以得到段落类别;反馈段落类别至终端,以供终端进行信息提取;其中,分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。本发明专利技术通过由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。

【技术实现步骤摘要】
司法文书段落分类方法、装置、计算机设备及存储介质
本专利技术涉及文本信息处理方法,更具体地说是指司法文书段落分类方法、装置、计算机设备及存储介质。
技术介绍
对司法领域而言,从海量的司法案件中获取更多信息成为大数据时代迫切需求之一,然而将文本形式的司法文书结构化是后续进行高效处理、深入分析的前提。由于司法文书的严谨性与规范性,通常对司法文书的段落组成及书写方式较为固定,通过对文书进行段落划分,可以降低文书结构化,即后续文书信息提取的数据复杂度与难度,提高准确性。目前常见的司法文书段落分类方式,主要通过规则提取实现,由于司法文书的段落组成及书写方式较为固定,可人工提炼识别规则,识别给定段落的位置。但规则提取不具有泛化能力,需要长期人工介入进行迭代矫正规则以提高提取的召回率。因此,有必要设计一种新的方法,实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供司法文书段落分类方法、装置、计算机设备及存储介质。为实现上述目的,本专利技术采用以下技术方案:司法文书段落分类方法,包括:获取司法文书;对所述司法文书进行字符切分,以得到字符矩阵;根据所述字符矩阵进行向量提取,以得到句子表示向量;将所述句子表示向量进行拼接,以得到文书表示向量;将所述文书表示向量输入分类模型中进行分类,以得到段落类别;反馈所述段落类别至终端,以供终端进行信息提取;其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。其进一步技术方案为:所述对所述司法文书进行字符切分,以得到字符矩阵,包括:按照标签符号切分所述司法文书内的句子,以得到字符矩阵。其进一步技术方案为:所述根据所述字符进行向量提取,以得到句子表示向量,包括:对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;将所述句子特征按照顺序进行拼接,以得到句子表示向量。其进一步技术方案为:所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量,包括:采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。其进一步技术方案为:所述将所述句子特征按照顺序进行拼接,以得到句子表示向量,包括:将所述句子特征按照最大值、最小值以及平均值的顺序进行首尾拼接,以得到句子表示向量。其进一步技术方案为:所述分类模型包括两层双向循环神经网络、一层全连接层以及一层条件随机场。其进一步技术方案为:所述分类模型使用自适应矩估计优化器进行训练优化。本专利技术还提供了司法文书段落分类装置,包括:文书获取单元,用于获取司法文书;切分单元,用于对所述司法文书进行字符切分,以得到字符矩阵;向量提取单元,用于根据所述字符矩阵进行向量提取,以得到句子表示向量;向量拼接单元,用于将所述句子表示向量进行拼接,以得到文书表示向量;分类单元,用于将所述文书表示向量输入分类模型中进行分类,以得到段落类别;反馈单元,用于反馈所述段落类别至终端,以供终端进行信息提取。本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。本专利技术与现有技术相比的有益效果是:本专利技术通过先对司法文书进行字符切分后,再进行字符表示向量的获取,根据字符表示向量构建句子表示向量,再由训练后的双向循环神经网络和条件随机场组成的分类模型对句子表示向量进行分类处理,以得到段落类别,分类模型采用深度学习技术进行分类,可实现自动进行司法文书段落的分类,且具有泛化能力,提取的准确率和召回率高。下面结合附图和具体实施例对本专利技术作进一步描述。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的司法文书段落分类方法的应用场景示意图;图2为本专利技术实施例提供的司法文书段落分类方法的流程示意图;图3为本专利技术实施例提供的司法文书段落分类方法的子流程示意图;图4为本专利技术实施例提供的司法文书段落分类装置的示意性框图;图5为本专利技术实施例提供的司法文书段落分类装置的向量提取单元的示意性框图;图6为本专利技术实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1和图2,图1为本专利技术实施例提供的司法文书段落分类方法的应用场景示意图。图2为本专利技术实施例提供的司法文书段落分类方法的示意性流程图。该司法文书段落分类方法应用于服务器中,该服务器与终端进行数据交互,从终端获取司法文书,由服务器进行句子切分、句子表示向量构建、文书表示向量的获取,并经过训练的分类模型进行段落的分类,并将分类结果反馈至终端。图2是本专利技术实施例提供的司法文书段落分类方法的流程示意图。如图2所示,该方法包括以下步骤S110至S160。S110、获取司法文书。在本实施例中,司法文书是指从终端输入的,需要进行段落分类的司法类文书。S120、对所述司法文书进行字符切分,以得到字符矩阵。在本实施例中,字符矩阵是指司法文书内每一个句子对应的字符所构成的矩阵。在一实施例中,上述的步骤S120可包括:按照标签符号切分所述司法文书内的句子,以得到字符矩阵。具体地,将司法文书按“。;?!;?!本文档来自技高网...

【技术保护点】
1.司法文书段落分类方法,其特征在于,包括:/n获取司法文书;/n对所述司法文书进行字符切分,以得到字符矩阵;/n根据所述字符矩阵进行向量提取,以得到句子表示向量;/n将所述句子表示向量进行拼接,以得到文书表示向量;/n将所述文书表示向量输入分类模型中进行分类,以得到段落类别;/n反馈所述段落类别至终端,以供终端进行信息提取;/n其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。/n

【技术特征摘要】
1.司法文书段落分类方法,其特征在于,包括:
获取司法文书;
对所述司法文书进行字符切分,以得到字符矩阵;
根据所述字符矩阵进行向量提取,以得到句子表示向量;
将所述句子表示向量进行拼接,以得到文书表示向量;
将所述文书表示向量输入分类模型中进行分类,以得到段落类别;
反馈所述段落类别至终端,以供终端进行信息提取;
其中,所述分类模型是通过带有类别标签的文书表示向量作为样本数据训练双向循环神经网络和条件随机场组成的模型所得的。


2.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述对所述司法文书进行字符切分,以得到字符矩阵,包括:
按照标签符号切分所述司法文书内的句子,以得到字符矩阵。


3.根据权利要求1所述的司法文书段落分类方法,其特征在于,所述根据所述字符进行向量提取,以得到句子表示向量,包括:
对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量;
根据所述字符表示向量计算最大值、最小值以及平均值,以得到句子特征;
将所述句子特征按照顺序进行拼接,以得到句子表示向量。


4.根据权利要求3所述的司法文书段落分类方法,其特征在于,所述对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量,包括:
采用谷歌预训练的中文BERT语言模型对所述字符矩阵进行表示向量的提取,以得到初始字符表示向量。


5.根据权利...

【专利技术属性】
技术研发人员:温凯雯吕仲琪顾正
申请(专利权)人:深圳市华云中盛科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1