一种法律文书自动识别、生成系统及其方法技术方案

技术编号:22418137 阅读:55 留言:0更新日期:2019-10-30 02:00
本发明专利技术公开了一种法律文书自动识别、生成系统,包括识别模块、处理模块和生成模块,其中:识别模块,用于将法律文书转化电子源文件并导入处理模块;处理模块,进行预处理,定位关键词并提取文本信息;生成模块,抽取与关键词分别一一对应的数据源,生成预填录界面,校验后,自动填录入业务系统。还公开了一种方法,将法律文书转换成电子源文件;对电子源文件进行预处理,定位关键词并提取文本信息;将文本信息与数据源建立映射关系,生成预填录界面辅助人工校对,校验通过后,填录入与系统对接的业务系统。本发明专利技术自动识别、提取案件关键信息,并模拟人的方式将数据自动填录到对接的业务系统中,极大地提高了案件受理的工作效率降低出错概率。

【技术实现步骤摘要】
一种法律文书自动识别、生成系统及其方法
本专利技术涉及数据处理
,具体的说,是一种法律文书自动识别、生成系统及其方法。
技术介绍
法律文书一般是司法行政机关等在解决诉讼、非诉案件时使用的文书。现有技术中,一般采用的纸质的法律文书,递交到司法行政机关后,受理案件人员需要对案件进行受理登记,即人工对法律文书进行阅读分析,提取关键信息录入其业务系统。例如,检察院受理一个单人的审查逮捕案件,需要填录的案卡项大约90项;受理多人的审查逮捕案件,每增加一个犯罪嫌疑人,需要填录的案卡项会增加50项。并且由于当前司法行政机关案多人少的现象突出,人工受理案件势必会耗费大量的人力、时间,不仅工作繁琐,而且容易出错。
技术实现思路
本专利技术的目的在于提供一种法律文书自动识别、生成系统及其方法,用于解决现有技术中人工受理案件耗费大量的人力、时间,不仅工作繁琐,而且容易出错的问题。本专利技术通过下述技术方案解决上述问题:一种法律文书自动识别、生成系统,包括识别模块、处理模块和生成模块,其中:识别模块,用于将纸质法律文书转化电子源文件,并将电子源文件导入处理模块;或者直接将电子版本的法律文书导入处理模块;处理模块,对导入的电子源文件进行预处理,定位关键词并提取文本信息;生成模块,从对接的业务系统中抽取数据源,所述数据源与所述关键词分别一一对应,并建立所述文本信息与数据源的映射关系,生成预填录界面,通过人工校验和确认后,自动填录入业务系统。进一步地,所述处理模块包括:预处理单元,其配置成用于进行文本清洗以及文本格式化;提取关键词单元,根据对接的业务系统中的提取项模板配置提取关键词,定位关键词的位置,并根据设定的匹配规则提取文本信息。一种法律文书自动识别、生成方法,包括:步骤S100:将法律文书转换成能够被选择、复制和检索文字的电子源文件;步骤S200:对电子源文件进行预处理,定位关键词并提取文本信息;步骤S300:将所述文本信息与对接的业务系统中的数据源建立映射关系,生成预填录界面辅助人工校验,校验通过后,填录入与系统对接的业务系统。进一步地,所述步骤S100包括将纸质法律文书经过高拍仪扫描、识别并转换成双层PDF文件,另外Word/WPS/双层PDF文书等电子版法律文书可直接导入处理模块。所述双层PDF文件可选择文字、复制文字以及检索文字。进一步地,所述预处理包括文本清洗和文本格式化,其中:文本清洗包括编码转换、去空格、去非法字符、缺失关键词补充修正;文本格式化包括分块、分段和分句,其中分块是根据文本分块标志进行分块,所述分段是按照段落符号进行划分,所述分句以标点符号作为分隔符号,将句子分成一个个的短句。进一步地,所述定位关键词并提取文本信息具体包括:根据对接的业务系统中数据源的需求,建立关键词词典,定位关键词所在的分块、段落和短句;从所述短句中确定句子主语,根据预设的抽取项模板,进行关键词抽取;将抽取的文本信息进行数据转换后输出文本信息,建立文本信息与数据源的对应关系。数据转换包括数据格式转换、文本标准格式转换等等。如对户籍的信息提取,截取至省份和市级。进一步地,所述步骤S300具体包括:步骤S310:从对接的业务系统中抽取数据源,生成预填录界面,所述预填录界面展示数据源及数据源对应的文本信息,预填录界面还加载展示文书原始信息;步骤S320:对预填录界面进行校验,包括:自动校正:根据对接的业务系统的填录标准进行校验,将文本信息进行自动校正,并进行已校正提示;设置默认值:提供默认值选项,用于在对应的文本信息未提取到时,将默认值填入;手动填录:提示用户填录该项,用户手动填录或者将预填录界面的文书原始信息直接拖拽到该选项;自动复制:提示可复制项,用于将用户填入的内容自动复制到其他名称相同的选项中;步骤S330:将经过人工校验后文本信息自动填录入对接的业务系统。本专利技术与现有技术相比,具有以下优点及有益效果:(1)本专利技术自动识别、智能解析文书内容,精确提取案件关键信息,按照其对接的业务系统的案卡填录的标准,对数据规范化处理,并模拟人的方式将数据自动填录到对接的业务系统中,受理案件人员只需要对填录信息进行校对即可,极大地提高了案件受理的工作效率。(2)本专利技术中的分句采用标点符号为分隔符号,而不是以句号为分句依据,因此将句子分成一个个短句,分别提取短句中涉及的关键词,避免了提取文本信息的遗漏和不准确。附图说明图1为本专利技术的系统原理框图;图2为本专利技术中提取关键词的流程图。具体实施方式下面结合实施例对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例1:结合附图1所示,一种法律文书自动识别、生成系统,包括识别模块、处理模块和生成模块,其中:识别模块,用于将纸质法律文书经过高拍仪扫描、识别并转换成双层PDF文件,并自动导入处理模块;如果法律文书为Word/WPS/双层PDF等格式的电子版文书,可直接导入处理模块;双层PDF文件可选择文字、复制文字以及检索文字;处理模块,对导入的电子源文件进行预处理,定位关键词并提取文本信息;生成模块,从对接的业务系统中抽取数据源,所述数据源与所述关键词分别一一对应,并建立所述文本信息与数据源的映射关系,生成预填录界面,通过人工校验和确认后,自动填录入业务系统。进一步地,所述处理模块包括:预处理单元,其配置成用于进行文本清洗以及文本格式化,其中:文本清洗是指编码转换、去空格、去非法字符、缺失关键字补充修正等处理,例如:罪名表述(表述不完整的补充)、特殊日期表述(如同年、同日、翌日、年底、年初、月底、月初等修正)、人物特性词标注(没有写明的默认按嫌疑人标注)、中文数字转换、半角全角符号处理等。文本格式化包含分块、分段、分句,其中分块是根据文本行文格式和内容框架进行分块,通过文本分块标志模板配置,每个文本分块的配置规则包含的元素有:<起始标签>、<起始标签类型>、<是否包含起始位置内容>、<结束标签类型>、<是否包含结束位置内容>等。例如《起诉意见书》,内容框架可分为【文书类别】、【移送单位】、【文书文号】、【犯罪嫌疑人基本信息】、【侦查机关认定犯罪事实】、【综合陈述罪名信息】、【附加信息】等几大块。以【犯罪嫌疑人基本信息】的分块配置为例说明如下:<犯罪嫌疑人基本信息><起始标签>起诉意见书#起诉意见书#意见书#意见书#起诉书#起诉书#起诉#起诉#意见#意见</起始标签><起始标签类型>wz</起始标签类型><是否包含起始位置内容>false</是否包含起始位置内容><结束标签>yfcmkey#cq</结束标签><结束标签类型>bqm</结束标签类型><是否包含结束位置内容>false</是否包含结束位置内容></犯罪嫌疑人基本信息>这段配置规定了“犯罪嫌疑人基本信息”从文书中哪部分内容提取:1.<起始标签>规定了该分块的开始标志,用“#”分隔;2.<起始标签类型>规定了起始标签的类型,“wz”代表“文字”,即“犯罪嫌疑人基本信息”这一块的内容是从文书中出本文档来自技高网...

【技术保护点】
1.一种法律文书自动识别、生成系统,其特征在于,包括识别模块、处理模块和生成模块,其中:识别模块,用于将法律文书转化电子源文件,并将电子源文件导入处理模块;处理模块,对导入的电子源文件进行预处理,定位关键词并提取文本信息;生成模块,从对接的业务系统中抽取数据源,所述数据源与所述关键词分别一一对应,并建立所述文本信息与数据源的映射关系,生成预填录界面,通过人工校验和确认后,自动填录入业务系统。

【技术特征摘要】
1.一种法律文书自动识别、生成系统,其特征在于,包括识别模块、处理模块和生成模块,其中:识别模块,用于将法律文书转化电子源文件,并将电子源文件导入处理模块;处理模块,对导入的电子源文件进行预处理,定位关键词并提取文本信息;生成模块,从对接的业务系统中抽取数据源,所述数据源与所述关键词分别一一对应,并建立所述文本信息与数据源的映射关系,生成预填录界面,通过人工校验和确认后,自动填录入业务系统。2.根据权利要求1所述的一种法律文书自动识别、生成系统,其特征在于,所述处理模块包括:预处理单元,其配置成用于进行文本清洗以及文本格式化;提取关键词单元,根据对接的业务系统中的提取项模板配置提取关键词,定位关键词的位置,并根据设定的匹配规则提取文本信息。3.一种法律文书自动识别、生成方法,其特征在于,包括:步骤S100:将法律文书转换成能够被选择、复制和检索文字的电子源文件;步骤S200:对电子源文件进行预处理,定位关键词并提取文本信息;步骤S300:将所述文本信息与对接的业务系统中的数据源建立映射关系,生成预填录界面辅助人工校验,校验通过后,填录入与系统对接的业务系统。4.根据权利要求3所述的一种法律文书自动识别、生成方法,其特征在于,所述步骤S100包括:如果法律文书为纸质法律文书,需要对纸质法律文书采用高拍仪扫描、识别并转换为双层PDF文档后,进入下一步;如果法律文书是电子版法律文书,所述电子版法律文书为Word文档、Wps文档或双层PDF文档,直接进入下一步。5.根据权利要求3所述的一种...

【专利技术属性】
技术研发人员:许敏朱雅都徐春林黄尚强陈泉吉黄俊凯李娟
申请(专利权)人:同方赛威讯信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1