一种文书划分方法及装置制造方法及图纸

技术编号:21299498 阅读:16 留言:0更新日期:2019-06-12 07:54
本申请公开了一种文书划分方法及装置,该方法包括:在对待划分卷宗进行文书划分时,首先将待划分卷宗中的每一页作为目标页,然后,分析该目标页与其上文之间的语义关联关系,和/或,分析该目标页与其下文之间的语义关联关系;接着,可以根据分析出的该待划分卷宗中的每一页对应的语义关联关系,将该待划分卷宗进行文书划分。由于文书之间通常情况下不具有语义关联性,基于这些特性,当根据待划分卷宗中的每一页与其上文之间的语义关联关系、和/或与其下文之间的语义关联关系,对待划分卷宗进行文书划分时,相比于过分依赖于标题检测结果进行文书划分的方法,本申请提高了文书划分结果的正确性。

A Method and Device for Classifying Documents

This application discloses a document partitioning method and device, which includes: when dividing a document into files, each page in the file to be partitioned is first taken as the target page, and then the semantic association between the target page and its preceding page is analyzed, and/or the semantic association between the target page and its following pages is analyzed; then, the semantic association between the target page and its following pages can be analyzed according to the analysis. Each page of the file to be divided corresponds to the semantic relationship, and the file to be divided is divided into documents. Because there is usually no semantic correlation between documents, based on these characteristics, this application improves the document classification method when dividing documents according to the semantic correlation between each page of the file to be divided and its preceding, and/or its following, compared with the method that relies too much on the results of Title detection. The correctness of the division results.

【技术实现步骤摘要】
一种文书划分方法及装置
本申请涉及自然语言处理
,尤其涉及一种文书划分方法及装置。
技术介绍
在法院信息化建设过程中,无纸化办公已成为必先攻克的任务。无纸化办公主要通过电子卷宗管理系统完成卷宗管理,包括:管理记录反映案件办理过程和案件办理结果的文字、图表、声像等数字化文件材料。相对于传统的纸质卷宗,它可以海量存放并通过计算机网络实现多人同时查阅和打印,便于检查办案质量、加快办案流程、交流办案经验、提高办案水平。在通过电子卷宗管理系统完成卷宗管理时,其任务之一是法院电子卷宗编目的任务,该任务需要分析电子卷宗材料以进行文书划分,在进行文书划分时,由于一个卷宗(如合同纠纷)是由多个文书(如封面、起诉状、受理通知书、判决书等)组成,可以将该卷宗按每个文书进行划分和编目。在现有的文书划分方法中,首先检测出卷宗中的标题,然后基于标题检出结果进行文书划分,但是,该文书划分方法过于依赖于标题检出结果,当标题误检出或漏检出时,将导致文书划分错误。
技术实现思路
本申请实施例的主要目的在于提供一种文书划分方法及装置,能够提高文书划分结果的正确性。本申请实施例提供了一种文书划分方法,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。可选的,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:选择所述目标页中位置在前的第一数目的文本行;选择所述目标页的前一页中位置在后的第二数目的文本行;分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。可选的,所述分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系,包括:将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。可选的,所述分析所述目标页与所述目标页下文之间的语义关联关系,包括:选择所述目标页中位置在后的第三数目的文本行;选择所述目标页的后一页中位置在前的第四数目的文本行;分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。可选的,所述分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系,包括:将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。可选的,所述根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分,包括:根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。可选的,所述根据所述目标页对应的语义关联关系,确定所述目标页的页面标签,包括:根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;根据确定的概率,确定所述目标页的页面标签。可选的,所述根据确定的概率,确定所述目标页的页面标签,包括:生成所述目标页中前N个文字的文本字特征,和/或,生成所述目标页的图片分类结果,N≥1;根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。可选的,所述将所述待划分卷宗进行文书划分之后,还包括:将划分出的每一文书作为目标文书;在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,判断所述目标文本行是否为标题行。可选的,所述目标文本行的文本字特征包括:所述目标文本行中的文字的索引值;或者,所述目标文本行中的文字的索引值,以及,所述目标文本行的前一文本行中的文字的索引值、和/或所述目标文本行的后一文本行中的文字的索引值。可选的,所述前N个文字的文本字特征包括:所述前N个文字中每一文字的索引值。可选的,所述目标文本行的像素位置特征包括以下一项或多项:所述目标文本行的左侧位置;所述目标文本行的宽度;所述目标文本行的高度;所述目标文本行与所述目标文本行的前一文本行之间的间距;所述目标文本行与所述目标文本行的后一文本行之间的间距;所述目标文本行与所述目标文本行所属页面的右侧边缘之间的间距。本申请实施例还提供了一种文书划分装置,包括:目标页确定单元,用于将待划分卷宗中的每一页作为目标页;关系分析单元,包括第一关系分析子单元和/或第二关系分析子单元;其中,所述第一关系分析子单元,用于分析所述目标页与所述目标页上文之间的语义关联关系;所述第二关系分析子单元,用于分析所述目标页与所述目标页下文之间的语义关联关系;文书划分单元,用于根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。可选的,所述第一关系分析子单元包括:第一文本行选择子单元,用于选择所述目标页中位置在前的第一数目的文本行;第二文本行选择子单元,用于选择所述目标页的前一页中位置在后的第二数目的文本行;第一分析子单元,用于分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。可选的,所述第一分析子单元包括:第一特征生成子单元,用于将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;第一关联关系分析子单元,用于根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。可选的,所述第二关系分析子单元包括:第三文本行选择子单元,用于选择所述目标页中位置在后的第三数目的文本行;第四文本行选择子单元,用于选择所述目标页的后一页中位置在前的第四数目的文本行;第二分析子单元,用于分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。可选的,所述第二分析子单元包括:第二特征生成子单元,用于将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;第二关联关系分析子单元,用于根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。可选的,所述文书划分单元包括:标签确定子单元,用于根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;文书划分子单元,用于根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。可选的,所述标签确定子单元包括:概率确定子单元,用于根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;第一标签确定子单元,用于根据确定的概率,确定所述目标页的页面标签。可选的,所述第一标签确定子单元包括:生成子单元,用于生成所述目标页中前N个文字的文本字特征;和/或,图片分类结果生成子单元,用于生成所述目标页的图片分类结果本文档来自技高网...

【技术保护点】
1.一种文书划分方法,其特征在于,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。

【技术特征摘要】
1.一种文书划分方法,其特征在于,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。2.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:选择所述目标页中位置在前的第一数目的文本行;选择所述目标页的前一页中位置在后的第二数目的文本行;分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。3.根据权利要求2所述的方法,其特征在于,所述分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系,包括:将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。4.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页下文之间的语义关联关系,包括:选择所述目标页中位置在后的第三数目的文本行;选择所述目标页的后一页中位置在前的第四数目的文本行;分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。5.根据权利要求4所述的方法,其特征在于,所述分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系,包括:将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。6.根据权利要求1所述的方法,其特征在于,所述根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分,包括:根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标页对应的语义关联关系,确定所述目标页的页面标签,包括:根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;根据确定的概率,确定所述目标页的页面标签。8.根据权利要求7所述的方法,其特征在于,所述根据确定的概率,确定所述目标页的页面标签,包括:生成所述目标页中前N个文字的文本字特征,和/或,生成所述目标页的图片分类结果,N≥1;根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。9.根据权利要求1所述的方法,其特征在于,所述将所述待划分卷宗进行文书划分之后,还包括:将划分出的每一文书作为目标文书;在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,判断所述目标文本行是否为标题行。10.根据权利要求3或5或9所述的方法,其特征在于,所述目标文本行的...

【专利技术属性】
技术研发人员:赵昂李宝善盛志超
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1