金额信息的提取方法、终端设备及介质技术

技术编号:19745123 阅读:22 留言:0更新日期:2018-12-12 04:43
本发明专利技术适用于信息处理技术领域,提供了一种金额信息的提取方法、终端设备及介质,该方法包括:根据法律文书的案由类别以及发行区域,获取法律文书的文本类型;在预设的多个识别算法中,确定出与文本类型匹配的识别算法,并基于确定出的识别算法,提取法律文书中的各个费用项以及与每一个费用项相对应的金额值;加载报告模板,并根据报告模板中预先设置好的表头,将费用项及金额值导入对应的表体中;根据报告模板的导入结果计算表尾,输出关于法律文书的金额信息提取报表。本发明专利技术能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,用户无需再对法律文书进行人工识别,故提高了金额信息的提取准确率以及提取效率。

【技术实现步骤摘要】
金额信息的提取方法、终端设备及介质
本专利技术属于信息处理
,尤其涉及一种金额信息的提取方法、终端设备及计算机可读存储介质。
技术介绍
司法行政机关及当事人、律师等在解决诉讼和非讼案件时所使用的文书为法律文书。法律文书往往记载有不同费用项的原告诉请金额、判决金额等金额数据信息。这些金额数据信息在自动断案、案件预判、律师画像、律师胜诉率分析以及判决合理性分析等方面均起着极为重要的参考作用。然而,基于法律文书的描述多样性,不同机关所对应发布的法律文书的样式差异较大,因此,若要提取法律文书中的金额数据信息,则目前用户也只能通过人工读取的方式来实现。然而,当法律文书所记载的费用项较多时,用户依次遍历法律文书中的各个字符需要耗费较多的时间,由此使得金额信息的提取效率较为低下。并且,在法律文书的读取过程中,或多或少地会出现人工识读出错的情况,因而也降低了金额信息的识别准确率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种金额信息的提取方法、终端设备及计算机可读存储介质,以解决现有技术中金额信息的识别准确率以及提取效率均较为低下的问题。本专利技术实施例的第一方面提供了一种金额信息的提取方法,包括:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。本专利技术实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。本专利技术实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。本专利技术实施例中,由于不同案由类别以及不同地区所发行的法律文书的样式差异较大,故根据法律文书的案由类别以及发行区域,确定出法律文书的文本类型后,再从预设的多种识别算法中获取与该文本类型匹配的识别算法,保证了能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,提高了金额信息的提取准确率,同时也为案件预判、律师画像、律师胜诉率分析、判决合理性分析等应用提供了更具参考价值的基础数据;另外,由于本专利技术实施例能够通过预设的识别算法以及报告模板来自动导出法律文书中各费用项以及金额值的对应关系,因而对于用户而言,其能够直观地查看到自己所需的金额信息,无需再对法律文书进行人工识别,因此,提高了金额信息的提取效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的金额信息的提取方法的实现流程图;图2是本专利技术实施例提供的金额信息的提取方法S102的具体实现流程图;图3是本专利技术实施例提供的金额信息的提取方法S102的另一具体实现流程图;图4是本专利技术另一实施例提供的金额信息的提取方法S102的具体实现流程图;图5是本专利技术又一实施例提供的金额信息的提取方法的实现流程图;图6是本专利技术实施例提供的金额信息的提取装置的结构框图;图7是本专利技术实施例提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。图1示出了本专利技术实施例提供的金额信息的提取方法的实现流程,该方法流程包括步骤S101至S104。各步骤的具体实现原理如下:S101:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型。本专利技术实施例中,司法行政机关及当事人、律师等在解决诉讼和非讼案件时所使用的文书为法律文书,法律文书包括包括司法机关的规范性文件以及非规范性文件。根据预设的网站信息,定期从对应的公开网站中下载上述法律文书。案由表示人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。案由类别包括但不限于人格权纠纷、婚姻家庭继承纠纷、物权纠纷、债权纠纷、劳动争议与人事争议纠纷以及知识产权纠纷等。发行区域表示发行法律文书的司法行政机关所属的行政区域。通过预设的识别算法来对法律文书进行检测处理,可识别出该法律文书中所记载的案由类别以及发行区域。本专利技术实施例中,在预设的信息表中,记录有案由类别、发行区域以及文本类型的映射关系。因此,根据当前法律文书的案由类别以及发行区域,读取对应该法律文书的文本类型。S102:在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值。由于不同文本类型的法律文书具有不同的文本样式风格,而每一种文本样式风格具有相对规律的文本特点,例如,第一文本类型的法律文书中,各个费用项的金额值通常展示于费用项的具体名称之后;第二文本类型的法律文书中,各个费用项的金额值通常展示于费用项的具体名称之前等。因此,针对每一类文本类型,获取开发人员所针对性设置的识别算法,并将各类识别算法与文本类型的匹配关系进行关联存储。本专利技术实施例中,根据上述S101中所获取得到的法律文书的文本类型,查找与该文本类型匹配的识别算法,以基于查找出的识别算法,提取法律文书中的各个费用项以及与每一个费用项对应的金额值信息。作为本专利技术的一个实施例,当查找出的识别算法为第一算法时,图2示出了本专利技术实施例提供的金额信息的提取方法S102的具体实现流程,详述如下:S1021:获取与费用项描述信息相关联的第一正则表达式。本专利技术实施例中,费用项描述信息包括各个费用项的名称或者与费本文档来自技高网...

【技术保护点】
1.一种金额信息的提取方法,其特征在于,包括:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。

【技术特征摘要】
1.一种金额信息的提取方法,其特征在于,包括:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。2.如权利要求1所述的金额信息的提取方法,其特征在于,若确定出的所述识别算法为第一算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值,包括:获取与费用项描述信息相关联的第一正则表达式;在所述法律文书中,定位与所述第一正则表达式匹配的各个所述费用项;对定位出的每一个所述费用项,查找所述法律文书中出现在该费用项之后的首个金额值,并将该费用项以及该金额值的对应关系进行提取。3.如权利要求1所述的金额信息的提取方法,其特征在于,若确定出的所述识别算法为第二算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值,包括:获取包含依序排列的多个费用项的信息列表以及与各类金额值关联的第二正则表达式;在所述法律文书中,定位与所述第二正则表达式匹配的各个所述金额值;对于每相邻的两个所述金额值之间所存在的文本区域,依序读取所述信息列表中的所述费用项,并判断所述文本区域中是否存在该费用项;若所述文本区域中存在该费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并在将该费用项以及该金额值的对应关系进行提取后,停止读取所述信息列表中的所述费用项。4.如权利要求3所述的金额信息的提取方法,其特征在于,还包括:若所述文本区域中不存在所述信息列表中的任一所述费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并读取位于该金额值之前的N个字符;其中,所述N为大于零的整数,且所述N为预设值;通过预设的自然语言处理算法,分别对各个所述字符进行实体标注处理;获取用户分别对各个所述字符设置的费用项名称;基于各个所述字符所分别对应的所述实体标注以及所述费用项名称,构建并训练神经网络模型;在每相邻的两个所述金额值之间的文本区域中,若再次检测到所述文本区域中未存在所述信息列表中的任一所述费用项,则通过所述神经网络模型,输出与排序在后的所述金额值相对应的所述费用项。5.如权利要求1所述的金额信息的提取方法,其特征在于,还包括:获取与信息变更事件关联的关键词;对所述法律文书进行检测处理,判断所述法律文书中是否存在所述关键词;若所述法律文书中存在所述关键词,则提取出与所述关键词邻近的所述费用项以及所述金额值,并在所述金额信息提取报表中,将该费用项所对应的金额值变更为当前...

【专利技术属性】
技术研发人员:苏晓明汪伟王晓伟刘媛源肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1