裁判文书中金额的提取方法、装置和电子设备制造方法及图纸

技术编号:18458681 阅读:32 留言:0更新日期:2018-07-18 12:39
本发明专利技术公开了一种裁判文书中金额的提取方法、装置和电子设备,其中,裁判文书中金额的提取方法包括:对裁判文书中的文本进行归一化处理;对归一化处理后的文本进行段落意群解析,并获取相关段落意群;提取出相关段落意群中的金额信息及其对应的上下文信息;计算金额信息的可信度得分;根据可信度得分对金额信息进行排序,并输出可信度得分最高的金额信息。本发明专利技术实施例的裁判文书中金额的提取方法、装置和电子设备,能够提高工作效率,降低人工成本,为案件分析提供可靠的数据基础。

Method, device and electronic equipment for extracting amount of money in judicial documents

The invention discloses a method, device and electronic equipment for the amount of money in a referee's document. Among them, the method of extracting the amount of the amount in the referee's document includes the normalization of the text in the referee's document, the parsing of the paragraph group of the text after the normalization and the related paragraph group, and the extraction of the related segments. The amount information and its corresponding context information in the falling group; the credibility score of the amount of money is calculated; the amount information is sorted according to the credibility score, and the amount of information with the highest credibility score is output. The amount extraction method, device and electronic equipment in the referee documents of the present invention can improve the working efficiency, reduce the labor cost, and provide a reliable data base for the case analysis.

【技术实现步骤摘要】
裁判文书中金额的提取方法、装置和电子设备
本专利技术涉及信息处理
,尤其涉及一种裁判文书中金额的提取方法、装置和电子设备。
技术介绍
裁判文书是记载人民法院审理过程和结果,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。目前,主要通过人工的方式来提取出裁判文书中案件的相关金额,从而为人民法院的判决等提供数据基础。然而,随着信息化时代的来临,数据量越来越大。上述方法已无法满足快节奏的操作需求,效率低,人工成本高。
技术实现思路
本专利技术提供一种信息推荐方法、装置和电子设备,以解决上述技术问题中的至少一个。本专利技术实施例提供一种裁判文书中金额的提取方法,包括:对裁判文书中的文本进行归一化处理;对归一化处理后的文本进行段落意群解析,并获取相关段落意群;提取出所述相关段落意群中的金额信息及其对应的上下文信息;计算所述金额信息的可信度得分;根据所述可信度得分对所述金额信息进行排序,并输出所述可信度得分最高的金额信息。可选的,对裁判文书中的文本进行归一化处理,包括:识别所述文本中的数字信息;对所述数字信息进行归一化。可选的,对所述数字信息进行归一化,包括:修正被标点符号分隔的数字信息;和/或将所述数字信息的表达格式归一化为预设表达格式。可选的,对归一化处理后的文本进行段落意群解析,并获取相关段落意群,包括:将归一化处理后的所述文本切分为多个段落意群;基于预设规则识别出所述相关段落意群和不相关段落意群;提取所述相关段落意群,并过滤所述不相关段落意群。可选的,提取出所述相关段落意群中的金额信息及其对应的上下文信息,包括:识别并提取所述金额信息,并将所述金额信息转换为数值形式;基于预设条件获取所述金额信息对应的上下文信息。可选的,提取出所述相关段落意群中的金额信息及其对应的上下文信息,包括:识别并提取所述金额信息,并将所述金额信息转换为数值形式;基于预设条件获取所述金额信息对应的上下文信息。本专利技术另一实施例提供一种裁判文书中金额的提取装置,包括:归一化模块,用于对裁判文书中的文本进行归一化处理;意群解析模块,用于对归一化处理后的文本进行段落意群解析,并获取相关段落意群;提取模块,用于提取出所述相关段落意群中的金额信息及其对应的上下文信息;计算模块,用于计算所述金额信息的可信度得分;输出模块,用于根据所述可信度得分对所述金额信息进行排序,并输出所述可信度得分最高的金额信息。可选的,所述归一化模块,用于:识别所述文本中的数字信息;对所述数字信息进行归一化。可选的,所述归一化模块,具体用于:修正被标点符号分隔的数字信息;和/或将所述数字信息的表达格式归一化为预设表达格式。可选的,所述意群解析模块,用于:将归一化处理后的所述文本切分为多个段落意群;基于预设规则识别出所述相关段落意群和不相关段落意群;提取所述相关段落意群,并过滤所述不相关段落意群。可选的,所述提取模块,用于:识别并提取所述金额信息,并将所述金额信息转换为数值形式;基于预设条件获取所述金额信息对应的上下文信息。可选的,所述计算模块,用于:对所述金额信息及其对应的上下文信息进行解析,获得所述金额信息的特征信息;根据所述特征信息,基于预设算法计算得到所述金额信息的可信度得分。本专利技术还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本专利技术第一方面实施例所述的裁判文书中金额的提取方法。本专利技术又一实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本专利技术第一方面实施例所述的裁判文书中金额的提取方法。本专利技术实施例提供的技术方案可以包括以下有益效果:通过对裁判文书中的文本进行归一化处理,以及对归一化处理后的文本进行段落意群解析,并获取相关段落意群,并提取出所述相关段落意群中的金额信息及其对应的上下文信息,然后计算所述金额信息的可信度得分,以及根据所述可信度得分对所述金额信息进行排序,并输出所述可信度得分最高的金额信息,能够提高工作效率,降低人工成本,为案件分析提供可靠的数据基础。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术一个实施例的裁判文书中金额的提取方法的流程图;图2是根据本专利技术一个实施例的裁判文书中金额的提取装置的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的裁判文书中金额的提取方法、装置和电子设备。图1是根据本专利技术一个实施例的裁判文书中金额的提取方法的流程图。如图1所示,该裁判文书中金额的提取方法包括:S101,对裁判文书中的文本进行归一化处理。目前,主要通过人工的方式来提取出裁判文书中案件的相关金额,从而为人民法院的判决等提供数据基础。但是,人工提取的方法需要从业人员对判决文书进行阅读,凭借经验分析,以获取所需的金额,对人工的要求高,费时费力,数据量巨大的情况下,效率低。为此,本专利技术提出一种裁判文书中金额的提取方法,提高提取金额的效率。在本专利技术的一个实施例中,对于一篇裁判文书,首先可识别文本中的数字信息,然后对数字信息进行归一化。具体地,可修正被标点符号分隔的数字信息;和/或将数字信息的表达格式归一化为预设表达格式。例如,文中有的数字为“100,000”,其实际上代表的意思是10万,因此需要对其进行归一化,去掉中间的标点符号,修改为“100000”。再例如:将一些不常见的数字表达转换为常用的数字表达(预设表达格式),繁体的“壹”转换为简体的“一”;全角的阿拉伯数字转换为半角等。S102,对归一化处理后的文本进行段落意群解析,并获取相关段落意群。具体地,可将归一化处理后的文本切分为多个段落意群,再基于预设规则识别出相关段落意群和不相关段落意群。然后,可提取相关段落意群,并过滤不相关段落意群。下面以刑事案件为例进行说明:一个典型的刑事案件可以切分为如下段落意群:a)被告人信息b)判决过程性信息c)检察院指控i.核心事实叙述【用于提取犯罪时间、地点、财物等信息】ii.案发后的情况【用于提取退赃、退赔、谅解等信息】iii.公诉机关认为段落,包含公诉机关对事实的认定以及对判刑的建议d)经审理查明i.核心事实描述ii.案发后情况iii.被告人及辩护人的意见及辩护诉求【是否认罪、部分事实的争议】e)证明材料f)本院认为i.剥离大段的法律原文引用【用于去除干扰】ii.剥离否定性词汇和句子iii.剥离被告以及辩护人的申诉iv.剥离检察院的意见v.剥离对证据的认定g)判决h)审判人员及书记员、审判时间等i)附件其中,被告人信息;判决过程性信息;检察院指控中的案发后的情况;经审理查明中的案发后情况;判决;审判人员本文档来自技高网...

【技术保护点】
1.一种裁判文书中金额的提取方法,其特征在于,包括:对裁判文书中的文本进行归一化处理;对归一化处理后的文本进行段落意群解析,并获取相关段落意群;提取出所述相关段落意群中的金额信息及其对应的上下文信息;计算所述金额信息的可信度得分;根据所述可信度得分对所述金额信息进行排序,并输出所述可信度得分最高的金额信息。

【技术特征摘要】
1.一种裁判文书中金额的提取方法,其特征在于,包括:对裁判文书中的文本进行归一化处理;对归一化处理后的文本进行段落意群解析,并获取相关段落意群;提取出所述相关段落意群中的金额信息及其对应的上下文信息;计算所述金额信息的可信度得分;根据所述可信度得分对所述金额信息进行排序,并输出所述可信度得分最高的金额信息。2.如权利要求1所述的方法,其特征在于,对裁判文书中的文本进行归一化处理,包括:识别所述文本中的数字信息;对所述数字信息进行归一化。3.如权利要求2所述的方法,其特征在于,对所述数字信息进行归一化,包括:修正被标点符号分隔的数字信息;和/或将所述数字信息的表达格式归一化为预设表达格式。4.如权利要求1所述的方法,其特征在于,对归一化处理后的文本进行段落意群解析,并获取相关段落意群,包括:将归一化处理后的所述文本切分为多个段落意群;基于预设规则识别出所述相关段落意群和不相关段落意群;提取所述相关段落意群,并过滤所述不相关段落意群。5.如权利要求1所述的方法,其特征在于,提取出所述相关段落意群中的金额信息及其对应的上下文信息,包括:识别并提取所述金额信息,并将所述金额信息转换为数值形式;基于预设条件获取所述金额信息对应的上下文信息。6.如权利要求1所述的方法,其特征在于,计算所述金额信息的可信度得分,包括:对所述金额信息及其对应的上下文信息进行解析,获得所述金额信息的特征信息;根据所述特征信息,基于预设算法计算得到所述金额信息的可信度得分。7.一种裁判文书中金额的提取装置,其特征在于,包括:归一化模块,用于对裁判文书中的文本进行归一化处理;意群解析模块,用于对归一化处理后的文本进行段...

【专利技术属性】
技术研发人员:王兴让彭松秦锋剑
申请(专利权)人:小草数语北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1