This application discloses a document partitioning method and device, which includes: when dividing a document into files, each page in the file to be partitioned is first taken as the target page, and then the semantic association between the target page and its preceding page is analyzed, and/or the semantic association between the target page and its following pages is analyzed; then, the semantic association between the target page and its following pages can be analyzed according to the analysis. Each page of the file to be divided corresponds to the semantic relationship, and the file to be divided is divided into documents. Because there is usually no semantic correlation between documents, based on these characteristics, this application improves the document classification method when dividing documents according to the semantic correlation between each page of the file to be divided and its preceding, and/or its following, compared with the method that relies too much on the results of Title detection. The correctness of the division results.
【技术实现步骤摘要】
一种文书划分方法及装置
本申请涉及自然语言处理
,尤其涉及一种文书划分方法及装置。
技术介绍
在法院信息化建设过程中,无纸化办公已成为必先攻克的任务。无纸化办公主要通过电子卷宗管理系统完成卷宗管理,包括:管理记录反映案件办理过程和案件办理结果的文字、图表、声像等数字化文件材料。相对于传统的纸质卷宗,它可以海量存放并通过计算机网络实现多人同时查阅和打印,便于检查办案质量、加快办案流程、交流办案经验、提高办案水平。在通过电子卷宗管理系统完成卷宗管理时,其任务之一是法院电子卷宗编目的任务,该任务需要分析电子卷宗材料以进行文书划分,在进行文书划分时,由于一个卷宗(如合同纠纷)是由多个文书(如封面、起诉状、受理通知书、判决书等)组成,可以将该卷宗按每个文书进行划分和编目。在现有的文书划分方法中,首先检测出卷宗中的标题,然后基于标题检出结果进行文书划分,但是,该文书划分方法过于依赖于标题检出结果,当标题误检出或漏检出时,将导致文书划分错误。
技术实现思路
本申请实施例的主要目的在于提供一种文书划分方法及装置,能够提高文书划分结果的正确性。本申请实施例提供了一种文书划分方法,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。可选的,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:选择所述目标页中位置在前的第一数目的文本行;选择所述目标页的前一页中位置在后的第二数目的文本行;分析所述第 ...
【技术保护点】
1.一种文书划分方法,其特征在于,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。
【技术特征摘要】
1.一种文书划分方法,其特征在于,包括:将待划分卷宗中的每一页作为目标页;分析所述目标页与所述目标页上文之间的语义关联关系,和/或,分析所述目标页与所述目标页下文之间的语义关联关系;根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分。2.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页上文之间的语义关联关系,包括:选择所述目标页中位置在前的第一数目的文本行;选择所述目标页的前一页中位置在后的第二数目的文本行;分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。3.根据权利要求2所述的方法,其特征在于,所述分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系,包括:将所述第一数目与所述第二数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第一数目的文本行与所述第二数目的文本行之间的语义关联关系。4.根据权利要求1所述的方法,其特征在于,所述分析所述目标页与所述目标页下文之间的语义关联关系,包括:选择所述目标页中位置在后的第三数目的文本行;选择所述目标页的后一页中位置在前的第四数目的文本行;分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。5.根据权利要求4所述的方法,其特征在于,所述分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系,包括:将所述第三数目与所述第四数目的文本行中的每一文本行作为目标文本行,生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,分析所述第三数目的文本行与所述第四数目的文本行之间的语义关联关系。6.根据权利要求1所述的方法,其特征在于,所述根据所述待划分卷宗中的每一页对应的语义关联关系,将所述待划分卷宗进行文书划分,包括:根据所述目标页对应的语义关联关系,确定所述目标页的页面标签;根据所述待划分卷宗中每一页的页面标签,将所述待划分卷宗进行文书划分。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标页对应的语义关联关系,确定所述目标页的页面标签,包括:根据所述目标页与所述目标页上文之间的语义关联关系,确定所述目标页属于文书首页的概率;和/或,根据所述目标页与所述目标页下文之间的语义关联关系,确定所述目标页属于文书尾页的概率;根据确定的概率,确定所述目标页的页面标签。8.根据权利要求7所述的方法,其特征在于,所述根据确定的概率,确定所述目标页的页面标签,包括:生成所述目标页中前N个文字的文本字特征,和/或,生成所述目标页的图片分类结果,N≥1;根据确定的概率、以及生成的文本字特征和/或图片分类结果,确定所述目标页的页面标签。9.根据权利要求1所述的方法,其特征在于,所述将所述待划分卷宗进行文书划分之后,还包括:将划分出的每一文书作为目标文书;在所述目标文书的首页中,选择位置在前的第五数目的文本行,并将选择的每一文本行作为目标文本行;生成所述目标文本行的文本字特征和/或像素位置特征;根据生成的特征,判断所述目标文本行是否为标题行。10.根据权利要求3或5或9所述的方法,其特征在于,所述目标文本行的...
【专利技术属性】
技术研发人员:赵昂,李宝善,盛志超,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。