【技术实现步骤摘要】
一种基于法律标签体系的文书标注方法
[0001]本专利技术属于文献标注
,具体是一种基于法律标签体系的文书标注方法。
技术介绍
[0002]法律标签文书是司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书,也包括司法机关的非规范性文件,包括规范性和非规范性两种。
[0003]专利公开号为CN108334500B的专利技术公开了一种基于机器学习算法的裁判文书标注方法及装置,该方法包括:采集待标注的裁判文书的文本集合;对所述文本集合中的文本进行结构分割;建立语义标签库;基于语义标签库对所述待标注的裁判文书进行人工标注;选取部分人工标注的裁判文书作为标准数据集合交由机器学习,训练和优化初步标注模型;选取剩余部分人工标注的裁判文书样本作为校验数据集合,用于完善所述语义标签库,并对所述初步标注模型进行迭代和优化,得到成熟的裁判文书标注模型;将目标待标注的裁判文书进行结构分割后输入所述成熟的裁判文书标注模型,得到标注结果,通过本专利技术,解决了相关技术中裁判文书法律要素提取不完整和案件信息提取准确度低的问题。r/>[0004]法本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于法律标签体系的文书标注方法,其特征在于,包括以下步骤:S1、对法律标签数据库进行预处理,将若干组法律标签进行合并分析,确定若干组法律标签所存在的共有标签,并对此类共有标签进行数值转换,并获取对应共有标签的数值转换表,同时,按照层层筛选的方式,得到此法律标签数据库的待比对树状图;S2、将需进行标注的法律文书进行提取,并将处理得到的数值转换表进行提取,并通过采用数值转换表对法律文书内部的共有标签进行转换,转换完毕后,得到待处理文书;S3、对待处理文书进行标注处理,通过处理得到的待比对树状图,对待处理文书内存在颜色标注的整句句子进行提取,再对所提取的若干个带有颜色标注的句子进行统一标注处理;S4、对法律标签标注文本内所标注的内容进行分析,通过标注区域存在的次数以及对应的区域面积,对不同的法律标签标注文本进行难度认定,并给出难度认定等级。2.根据权利要求1所述的一种基于法律标签体系的文书标注方法,其特征在于,所述步骤S1中,将若干组法律标签进行合并分析的具体方式为:S11、将法律标签数据库内部的所有法律标签提取出,并从所有的法律标签内提取共有标签,再采用转换数值对共有标签进行转换,其中转换数值的表现形式为i,其中i=1、2、
……
、n,当i值为11时,则i值为11的表现形式则为1
‑
1,依次将第一分类的共有标签处理完毕后,将替换后的转换数值i与对应的共有标签进行捆绑,得到数值转换表;S12、将第一分类的共有标签提取处理完毕后,对处理后的法律标签进行再次共有标签提取处理,采用层层筛选的方式,得到属于此法律标签数据库的待比对树状图,其中第二分类以及后续分类的共有标签不需要采用转换数值进行转换;S13、依次将所有的法律标签按照步骤S11以及步骤S12处理完毕后,将对应的数值转换表以及分析所得的待比对树状图进行存储。3.根据权利要求2所述的一种基于法律标签体系的文书标注方法,其特征在于,所述步骤S2中,通过采用数值转换表对法律文书内部的共有标签进行转换的具体方式为:S21、通过数值转换表内部的共有标签,对法律文书内部所存在的对应字符进行提取,提取完毕后,并从数值转换表内将属于共有标签的转换数值填补至提取位置处;S22、转换数值填补完毕后,并对所填补的转换数值进行颜色标注,其中进行颜色标注的颜色采用统一配色,其中统一配色的具体色彩由操作人员自行拟定...
【专利技术属性】
技术研发人员:公维剑,汪荣,崔文强,
申请(专利权)人:泰山检察信息技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。