一种法律文书的分段方法及装置制造方法及图纸

技术编号:18732279 阅读:23 留言:0更新日期:2018-08-22 02:59
本发明专利技术公开了一种法律文书的分段方法及装置,涉及计算机技术领域,主要目的是用于提高法律文书分段的准确性。所述方法包括:提取法律文书的语义特征,设置所述语义特征属于不同语义段的权重值,根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值,采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。本发明专利技术主要用于对法律文书的分段。

A method and device for segmenting legal documents

The invention discloses a segmentation method and a device for legal documents, which relates to the field of computer technology. The main purpose is to improve the accuracy of segmentation of legal documents. The method comprises the following steps: extracting the semantic features of a legal document, setting the weight values of the semantic features belonging to different semantic segments, obtaining that each natural segment in the legal document belongs to a different nature according to the semantic features contained in each natural segment and the weight values of the semantic features belonging to different semantic segments. The probabilistic value of the semantics segment is selected from the probabilistic value by the dynamic programming algorithm as the segmental path of the legal document. The invention is mainly used for subsection of legal documents.

【技术实现步骤摘要】
一种法律文书的分段方法及装置
本专利技术涉及计算机
,尤其是一种法律文书的分段方法及装置。
技术介绍
法律文书是司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书,也包括司法机关的非规范性文件。目前,国内的法律文书主要类型包含民事、刑事、行政等类型案件。由于法律文书中涉及的内容多种多样,目前对法律文书的解析有很大一部分工作是在法律文书中查找关键信息点,为了能够提高信息查询的准确性和信息查找的效率,通常的做法是预先将法律文书分为若干个语义段,进而方便在每个语义段中查找关键信息点,这里的语义段为法律文书中表达相同主题的单个或者多个自然段。现有技术通常是对法律文书中每个自然段进行特征词匹配或者正则匹配,然后根据匹配的结果实现对法律文书进行分段,然而,由于在进行匹配的过程中经常会有干扰信息的出现,使得匹配结果有误差,进而导致法律文书的分段结果不理想。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种法律文书的分段方法及装置,能够提高法律文书分段的准确性。一方面,本专利技术提供了一种法律文书的分段方法,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。进一步地,所述根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值包括:统计所述法律文书中每个自然段所包含的语义特征,得到每个语义特征出现在不同自然段的频率;根据所述每个语义特征出现在不同自然段的频率以及该语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值。进一步地,所述采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径包括:根据所述每个自然段属于不同语义段的概率值,得到概率值矩阵;将所述概率矩阵作为输入参数,采用动态规划算法计算分段组合概率;选取所述分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。进一步地,在所述提取法律文书的语义特征之前,所述方法还包括:利用法律文书样本中的文书结构归纳语义段集合,所述语义段集合中包含用于表征法律文书中不同主题内容的多个语义段。进一步地,所述设置所述语义特征属于不同语义段的权重值包括:根据统计语义特征在不同语义段出现的历史次数,设置所述语义特征属于不同语义段的权重值。另一方面,本专利技术提供一种法律文书的分段装置,包括:提取单元,用于提取法律文书的语义特征;设置单元,用于设置所述语义特征属于不同语义段的权重值;概率计算单元,用于根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;选取单元,用于采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。进一步地,所述概率计算单元包括:统计模块,用于统计所述法律文书中每个自然段所包含的语义特征,得到每个语义特征出现在不同自然段的频率;第一计算模块,用于根据所述每个语义特征出现在不同自然段的频率以及该语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值。进一步地,所述选取单元包括:第二计算模块,用于根据所述每个自然段属于不同语义段的概率值,得到概率值矩阵;第三计算模块,用于将所述概率矩阵作为输入参数,采用动态规划算法计算分段组合概率;选取模块,用于选取所述分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。进一步地,所述装置还包括:归纳单元,用于利用法律文书样本中的文书结构归纳语义段集合,所述语义段集合中包含用于表征法律文书中不同主题内容的多个语义段。进一步地,所述设置单元,具体用于根据统计语义特征在不同语义段出现的历史次数,设置所述语义特征属于不同语义段的权重值。借由上述技术方案,本专利技术提供的一种法律文书的分段方法及装置,首先提取法律文书的语义特征,设置该语义特征属于不同语义段的权重值,从而能够根据法律文书中每个自然段所包含的语义特征以及该语义特征属于不同语义段的权重值,计算法律文书中每个自然段属于不同语义段的概率值,进一步采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为法律文书的分段路径。相对于现有的采用特征词匹配的方式对法律文书进行分段的方法,本专利技术通过将法律文书中每个自然段属于不同语义段的概率值作为动态规划算法的输入,从而选取出最优的分段路径,能够更合理的对法律文书中的自然段进行划分,排除非特征信息在分段过程中对分段路径选取的干扰,提高了法律文书分段的准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种法律文书的分段方法流程示意图;图2示出了本专利技术实施例提供的另一种法律文书的分段方法流程示意图;图3示出了本专利技术实施例提供的一种法律文书的分段装置结构示意图;图4示出了本专利技术实施例提供的另一种法律文书的分段装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种法律文书的分段方法,如图1所示,该方法应用于法律文书的分段,针对不同语义段对法律文书中的自然段进行划分,具体步骤包括:101、提取法律文书的语义特征。其中,法律文书的语义特征为法律文书中能够表征法律文书的特征词汇,通常可以分为两类,一类是专用于法律文书领域的,例如,脱逃、标的、羁押、诉讼保全等,由于这类词汇专用于法律范畴,其他领域才出现的可能性较少,另一类不仅用于法律文书领域还兼用于其他领域,例如,故意、错误、委托、代理等,本专利技术实施例不对语义特征进行限定。需要说明的是,这里的法律文书的语义特征通常为在法律文书中出现频率比较高的法律词汇,对于本专利技术实施例可以统计法律文书中历史出现频率较高的法律词汇作为语义特征,当然还可以根据法律文书中的语法依存关系进行提取,本专利技术实施例对语义特征的提取方式不进行限定。102、设置所述语义特征属于不同语义段的权重值。其中,语义段为法律文书中表达不同主题内容的段落,例如可以包括标题语义段、诉请语义段、陈述语义段以及过渡语义段等,对于刑事判决书中在诉讼参与人、公诉机关和事实之间有一段文字“**人民检察院以*检本文档来自技高网...

【技术保护点】
1.一种法律文书的分段方法,其特征在于,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。

【技术特征摘要】
1.一种法律文书的分段方法,其特征在于,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。2.根据权利要求1所述的方法,其特征在于,所述根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值包括:统计所述法律文书中每个自然段所包含的语义特征,得到每个语义特征出现在不同自然段的频率;根据所述每个语义特征出现在不同自然段的频率以及该语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值。3.根据权利要求1所述的方法,其特征在于,所述采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径包括:根据所述每个自然段属于不同语义段的概率值,得到概率值矩阵;将所述概率矩阵作为输入参数,采用动态规划算法计算分段组合概率;选取所述分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述提取法律文书的语义特征之前,所述方法还包括:利用法律文书样本中的文书结构归纳语义段集合,所述语义段集合中包含用于表征法律文书中不同主题内容的多个语义段。5.根据权利要求4所述的方法,其特征在于,所述设置所述语义特征属于不同语义段的权重值包括:根据统计语义特征在不同语义段出...

【专利技术属性】
技术研发人员:石鹏魏康
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1