【技术实现步骤摘要】
一种文本处理方法以及装置
本申请涉及自然语言处理领域,具体而言本申请实施例涉及一种文本处理方法以及装置。
技术介绍
裁判文书是一种行文严谨,格式规范的文书。例如,在规范的裁判文书中,文首部分包括的判决法院、文书类型和案号都是单独一行呈现,文尾部分包括的审判人员、审判日期和书记员也都是单独一行呈现,其他剩余的内容都是一个自然段作为一行呈现的,一行指的是带有一个换行符号的文本。这种规范格式不仅有利于阅读方便,也有利于机器分析。与规范的法律文书形成对比的是,当采用相关方法对规范法律文书进行格式转换、采集或者录入系统或者设备时(例如,对规范法律文书进行基于html格式转码、或者基于OCR格式的转码或者个别由于文书录入不规范等原因),造成了大量法律文书(例如,裁判文书)格式混乱的情况(例如,存在换行丢失或者非法换行等错误),这不仅造成了针对法律文书的阅读困难,还影响了基于法律文书的机器分析和学习的效果。
技术实现思路
本申请实施例的目的在于提供一种文本处理方法以及装置,采用本申请一些实施例的文本处理方法以及装置可以 ...
【技术保护点】
1.一种文本处理方法,其特征在于,所述文本处理方法包括:/n删除待处理文本包括的所有的目标符号,其中,所述目标符号包括换行符号或者至少一种标点符号;/n根据第一规则在所述待处理文本包括的文首部分和文尾部分分别添加所述目标符号;/n根据分类模型将所述待处理文本包括的正文部分划分为至少一个章节,并为所述至少一个章节中的各章节的末尾添加所述换行符号,其中,所述正文部分为所述待处理文本除所述文首部分和所述文尾部分之外剩余的部分。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述文本处理方法包括:
删除待处理文本包括的所有的目标符号,其中,所述目标符号包括换行符号或者至少一种标点符号;
根据第一规则在所述待处理文本包括的文首部分和文尾部分分别添加所述目标符号;
根据分类模型将所述待处理文本包括的正文部分划分为至少一个章节,并为所述至少一个章节中的各章节的末尾添加所述换行符号,其中,所述正文部分为所述待处理文本除所述文首部分和所述文尾部分之外剩余的部分。
2.如权利要求1所述的文本处理方法,其特征在于,所述删除待处理文本包括的所有的目标符号之前,所述文本处理方法还包括:确认输入文本属于所述待处理文本。
3.如权利要求2所述的文本处理方法,其特征在于,所述确认输入文本属于所述待处理文本,包括:
确认所述输入文本的文书类型属于目标文书类型,其中,所述目标文书类型包括:判决书、裁定书、调解书或者执行书;
确认所述输入文本满足预设条件,其中,所述预设条件包括确认所述输入文本包括的所述文首部分和所述文尾部分中的至少一部分的格式满足第一设定条件,或者确认所述输入文本的正文部分满足第二设定条件。
4.如权利要求3所述的文本处理方法,其特征在于,所述确认所述输入文本满足预设条件,包括:
根据规则词表从所述输入文本中删除所述文首部分和所述文尾部分,得到所述正文部分;
确认所述正文部分包括的所述换行符号前无标点符号的行数与所述正文部分的总行数的比值大于设定的第一阈值;或者确认所述正文部分包括的总行数与总字数的比值大于第二阈值。
5.如权利要求3所述的文本处理方法,其特征在于,所述待处理文本包括判决书和裁定书,所述文首部分包括判决法院、文书类型和案号,所述文尾部分包括审判人员、审判日期和书记员;
所述第一设定条件包括所述判决法院、所述文书类型、所述案号、所述审判人员、所述审判日期和所述书记员中至少一项后的所述换行符号不规范。
6.如权利要求1所述文本处理方法,其特征在于,所述待处理文本属于判决书或裁定书,所述判决书和所述裁定书的所述文首部分包括判决法院、文书类型和案号,所述判决书和所述裁定书的所述文尾部分包括:审判人员、...
【专利技术属性】
技术研发人员:任宁,
申请(专利权)人:鼎富智能科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。