文书智能排版方法及系统技术方案

技术编号:30550342 阅读:19 留言:0更新日期:2021-10-30 13:30
本发明专利技术是一种针对国家公文和各类法律文书的智能排版技术,主要针对国家公文、公安文书、检察文书、法院文书、司法行政文书、各类执法文书、仲裁文书、公证文书、鉴定文书、合同类文本,根据文书多对应的业务类型的内容特征、书写规范、文书半结构化特征,设计了一种文书结构的信息模型,提出了一种识别文书类型的分类方法、一种解析文书结构和要素的的方法和一种基于文书类型、文书要素和文书版式进行自动排版的方法,最终实现对一个文书按照特定版式自动排版的功效,使得计算机系统能够在文书制作中辅助排版,以解决现有技术排版过程中需要较多人工参与,效率低以及排版软件较难操作的问题。问题。问题。

【技术实现步骤摘要】
文书智能排版方法及系统


[0001]本专利技术涉及法律知识工程
,特别是涉及一种文书智能排版方法及系统。

技术介绍

[0002]国家公文和各类法律文书为保障其严肃性,都有严格的版式规定。国家公文和各类法律文书一般以非结构化自然语言文档方式来表示。为了严格符合版式要求,人工排版往往会耗时耗力,特别是针对特殊情形的文书,肉眼有时都难以观察和把控。因此,采用计算机技术对文档内容和结构进行识别并按照对应文档类型之下的排版标准进行自动排版,是解决国家公文和各类法律文书排版工作在信息化场景下的关键技术。最接近的同类技术及其不足之处,分述如下:
[0003]1.法律文书自动排版方法及装置(申请号/专利号:CN201910769647.3):核心的方法包括:通过模板式信息填充生成法律文书;以用户对文书的格式要求为标准,以预先设计的刷格式模型为参考,配置刷格式XML文件;程序解析法律文书Word文件为Word模型,根据Word中结构书签和内容标记书签的分布,为每个段落设置结构书签和段落书签,然后加载刷格式配置,进行格式的设置。本专利技术实施例公开的法律文书自动排版方法及装置,支持以XML形式进行文书格式的配置,扩展性强,支持法院层级的格式配置,灵活满足文书地域不同格式要求,支持Word常用的格式设置,基于刷格式配置,进行法律文书的自动排版,灵活地满足同一文书不同地域的特殊格式要求,最终生成不同法院需求的格式文书。。
[0004]2.一种文书文件的排版方法及装置(申请号/专利号:CN200910090195.2):核心方法包括,该方法排版装置根据用户输入的文书模板文件,解析获得对应的文书规则子文件、文书式样子文件及文书要素式样子文件;根据用户导入的文本文件,解析获得文本文件中的每个要素内容;将每个要素内容与文书要素式样子文件中的要素属性匹配,将匹配成功的要素内容传给要素属性对应的显现对象,根据该显现对象采用的文书式样子文件中的式样及文书规则子文件中的规则,对该显现对象中的要素内容进行排版。如本专利技术提出的方案,根据该显现对象采用的规则和式样,对该显现对象中的要素内容进行排版,从而提高排版的效率。
[0005]3.一种裁判文书自动排版方法及系统(申请号/专利号: CN202110100574.6):获取文书模板;对所述文书模板进行解析得到文书规则、文书式样以及文书要素;获取待排版的文书文件文本;对所述待排版的文书文件文本进行解析,得到所述待排版的文书文件文本中的要素以及要素内容;将所述文书模板中的文书要素和所述待排版的文书文件文本中的要素进行匹配;基于所述文书规则和所述文书样式对匹配后的要素进行排版。本专利技术中的上述方法能够减少人工的残余,提高排版效率。
[0006]上述三个专利,不足之处在于:(1)针对同一种文书类型,没有利用文书内容要素的特征差异实现不同版式的分流和控制;(2)对局部要素的排版缺少基于上下文参数的版式页码智能计算和控制;(3)文书要素识别没有明确所采用的算法方案,难以评估实际排版的指标水平。

技术实现思路

[0007]本专利技术要解决的技术问题是提供一种文书智能排版方法及系统,能够解决现有技术排版过程中需要较多人工参与,效率低以及排版软件较难操作的问题。
[0008]为解决上述技术问题,本专利技术提供了一种文书智能排版方法,所述方法包括:根据每类文书的书写规范、文本结构和内容特征,从后续排版要求出发,设计一套针对每一类文书的xml信息模型;根据每类文书的排版规范,结合这类文书的xml信息模型,定义一套排版样式模型;根据不同类文书的书写规范、文本结构和内容特征,设计一套识别文书类型的分类算法,实现对每一篇文书实例的自动分类;根据不同类文书的书写规范、文本结构和内容特征,结合这类文书的xml信息模型,采用基于规则和深度学习混合的方法,对文书全文进行分段切片和局部要素提取,按照文书的xml信息模型形成一个实例xml;根据当前文书的排版规范,调用对应的排版计算模型和排版样式模型,对当前文书实例xml进行自动排版,输出一个word或wps文档。
[0009]在一些实施方式中,根据每类文书的书写规范、文本结构和内容特征,从后续排版要求出发,设计一套针对每一类文书的xml信息模型,包括:总结每类文书文本书写规范和文本结构,将文本各段落按照逻辑关系划分出多层级的文本片;基于每类文书文本的切片业务特征、排版规范和语义特征,每一层级的分片,都包括分片属性和分片内容,同一层级分片之间定义上下文顺序,每一层级的分片,基于后续排版规范的需求,设计需要包含的信息要素;设计文书切片信息模型用以存储文书文本各层级切片及其要素。
[0010]在一些实施方式中,根据每类文书的排版规范,结合这类文书的xml信息模型,定义一套排版样式模型,包括:总结文书中要素的信息,设计一套针对各个部分样式存储的xml信息模型。
[0011]在一些实施方式中,xml信息模型包括:字体设置,及段落设置,字体设置中进行存储样式,字体、字号、样式、字号、颜色、字符间距、字符间隔,段落设置中进行存储样式,对其方式、左右缩进、行距、首行缩进类型。
[0012]在一些实施方式中,根据不同类文书的书写规范、文本结构和内容特征,设计一套识别文书类型的分类算法,实现对每一篇文书实例的自动分类,包括:基于文书分析结构化数据及文本结构,内容特征等,对文书进行自动分类,通过单个或多个结构化信息字段,组合识别判断文书类型;设计文书样式模板, 根据不同类型进行分类;根据分类设定不同的样式文件,从而实现不同文书匹配不同的排版样式。
[0013]在一些实施方式中,根据不同类文书的书写规范、文本结构和内容特征,结合这类文书的xml信息模型,采用基于规则和深度学习混合的方法,对文书全文进行分段切片和局部要素提取,按照文书的xml信息模型形成一个实例 xml,包括:根据文书格式类型,识别文书内容,通过读取内容后,进行下一步分析计算;结合文书内容处理后,采用基于规则和深度学习的混合方法和分析结构化技术,将非结构化文书提取识别为结构化信息文书结构体,从而达到文书的段落要素的识别和局部特殊字段的提取,从而输出结构化的文书模型。
[0014]在一些实施方式中,根据当前文书的排版规范,调用对应的排版计算模型和排版样式模型,对当前文书实例xml进行自动排版,输出一个word或wps 文档,包括:针对文书结构化信息体,根据分类、样式模型等处理形成排版的规范文件,其中法院行业文书和公文都有特有的排版样式处理;法院行业文书,审判人员、审判日期、书记员不能跨页显示,将自动
对文书正文段间距、行间距、页边距等进行微调,从而满足不跨页显示问题;公文,签发人在发文字号右侧,实现发文字号与签发人左右对其,采用单元格拆分,将元素进行分割显示,并显示左右对其,针对签发人和签发人姓名字体不一致,实现签发人姓名与签发人字段的不同字体样式的调整,标题中比较长的文字,实现菱形排列,从而实现自动排版效果;通过各部位的样式刷新后,形成新的文档格式,从而输出word或wps文档。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文书智能排版方法,其特征在于,包括:根据每类文书的书写规范、文本结构和内容特征,从后续排版要求出发,设计一套针对每一类文书的xml信息模型;根据每类文书的排版规范,结合这类文书的xml信息模型,定义一套排版样式模型;根据不同类文书的书写规范、文本结构和内容特征,设计一套识别文书类型的分类算法,实现对每一篇文书实例的自动分类;根据不同类文书的书写规范、文本结构和内容特征,结合这类文书的xml信息模型,采用基于规则和深度学习混合的方法,对文书全文进行分段切片和局部要素提取,按照文书的xml信息模型形成一个实例xml;根据当前文书的排版规范,调用对应的排版计算模型和排版样式模型,对当前文书实例xml进行自动排版,输出一个word或wps文档。2.根据权利要求1所述的文书智能排版方法,其特征在于,根据每类文书的书写规范、文本结构和内容特征,从后续排版要求出发,设计一套针对每一类文书的xml信息模型,包括:总结每类文书文本书写规范和文本结构,将文本各段落按照逻辑关系划分出多层级的文本片;基于每类文书文本的切片业务特征、排版规范和语义特征,每一层级的分片,都包括分片属性和分片内容,同一层级分片之间定义上下文顺序,每一层级的分片,基于后续排版规范的需求,设计需要包含的信息要素;设计文书切片信息模型用以存储文书文本各层级切片及其要素。3.根据权利要求1所述的文书智能排版方法,其特征在于,根据每类文书的排版规范,结合这类文书的xml信息模型,定义一套排版样式模型,包括:总结文书中要素的信息,设计一套针对各个部分样式存储的xml信息模型。4.根据权利要求3所述的文书智能排版方法,其特征在于,xml信息模型包括:字体设置,及段落设置,字体设置中进行存储样式,字体、字号、样式、字号、颜色、字符间距、字符间隔,段落设置中进行存储样式,对其方式、左右缩进、行距、首行缩进类型。5.根据权利要求1所述的文书智能排版方法,其特征在于,根据不同类文书的书写规范、文本结构和内容特征,设计一套识别文书类型的分类算法,实现对每一篇文书实例的自动...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:北京法意科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1