The invention discloses a segmentation method and a device for legal documents, which relates to the field of computer technology. The main purpose is to improve the accuracy of segmentation of legal documents. The method comprises the following steps: extracting the semantic features of a legal document, setting the weight values of the semantic features belonging to different semantic segments, obtaining that each natural segment in the legal document belongs to a different nature according to the semantic features contained in each natural segment and the weight values of the semantic features belonging to different semantic segments. The probabilistic value of the semantics segment is selected from the probabilistic value by the dynamic programming algorithm as the segmental path of the legal document. The invention is mainly used for subsection of legal documents.
【技术实现步骤摘要】
一种法律文书的分段方法及装置
本专利技术涉及计算机
,尤其是一种法律文书的分段方法及装置。
技术介绍
法律文书是司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书,也包括司法机关的非规范性文件。目前,国内的法律文书主要类型包含民事、刑事、行政等类型案件。由于法律文书中涉及的内容多种多样,目前对法律文书的解析有很大一部分工作是在法律文书中查找关键信息点,为了能够提高信息查询的准确性和信息查找的效率,通常的做法是预先将法律文书分为若干个语义段,进而方便在每个语义段中查找关键信息点,这里的语义段为法律文书中表达相同主题的单个或者多个自然段。现有技术通常是对法律文书中每个自然段进行特征词匹配或者正则匹配,然后根据匹配的结果实现对法律文书进行分段,然而,由于在进行匹配的过程中经常会有干扰信息的出现,使得匹配结果有误差,进而导致法律文书的分段结果不理想。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种法律文书的分段方法及装置,能够提高法律文书分段的准确性。一方面,本专利技术提供了一种法律文书的分段方法,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。进一步地,所述根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法 ...
【技术保护点】
1.一种法律文书的分段方法,其特征在于,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。
【技术特征摘要】
1.一种法律文书的分段方法,其特征在于,包括:提取法律文书的语义特征;设置所述语义特征属于不同语义段的权重值;根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值;采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。2.根据权利要求1所述的方法,其特征在于,所述根据所述法律文书中每个自然段所包含的语义特征以及所述语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值包括:统计所述法律文书中每个自然段所包含的语义特征,得到每个语义特征出现在不同自然段的频率;根据所述每个语义特征出现在不同自然段的频率以及该语义特征属于不同语义段的权重值,得到所述法律文书中每个自然段属于不同语义段的概率值。3.根据权利要求1所述的方法,其特征在于,所述采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为所述法律文书的分段路径包括:根据所述每个自然段属于不同语义段的概率值,得到概率值矩阵;将所述概率矩阵作为输入参数,采用动态规划算法计算分段组合概率;选取所述分段组合概率最大值对应的分段路径作为所述法律文书的分段路径。4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述提取法律文书的语义特征之前,所述方法还包括:利用法律文书样本中的文书结构归纳语义段集合,所述语义段集合中包含用于表征法律文书中不同主题内容的多个语义段。5.根据权利要求4所述的方法,其特征在于,所述设置所述语义特征属于不同语义段的权重值包括:根据统计语义特征在不同语义段出...
【专利技术属性】
技术研发人员:石鹏,魏康,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。