一种标题段落检测方法及装置制造方法及图纸

技术编号:21686440 阅读:26 留言:0更新日期:2019-07-24 14:45
本申请公开了一种标题段落检测方法及装置,该方法包括:先将目标文本中语义相关度高和/或区域位置近的文本内容划分到同一个文本段落中,再根据各个文本段落之间的语义相关性以及各个文本段落在目标文本中的位置信息进行标题检测,得到该目标文本中的各个标题所在的文本段落。由于在标题所在的文本段落的获取过程中,仅需依赖文本段落之间所具有的语义相关性以及各个文本段落在目标文本中的位置信息,无需依赖标题库,避免了因目标文本的标题不在标题库而导致确定的标题不准确的问题,从而提高了标题提取结果的准确性。

A Title Paragraph Detection Method and Device

【技术实现步骤摘要】
一种标题段落检测方法及装置
本申请涉及计算机
,尤其涉及一种标题段落检测方法及装置。
技术介绍
在司法领域的公检法各办案流程中,均流转着大量的以纸质文书呈现的证据材料,如何对此类证据材料进行有效地电子化呈现、并能够智能的提取其中的结构化信息,用以进行快速检索、分类归档是当前司法领域对证据材料电子化的刚需之一。然而,现有方法在生成文书的结构化信息时,需要依赖预先构建的标题库,即,使用标题库中的已知标题对文书文字进行匹配,从而给出文书标题。具体地,首先使用opencv等方式读入图片形式的文书,再使用ocr将文书图片中的文字进行提取,得到ocr文本,最后,采用规则计算的形式计算标题库中的已知标题与ocr文本的相似度得分,相似度得分最高的标题即为输出的结构化信息。可见,现有技术依赖于标题库中的已知标题,但当文书标题不在标题库中,或ocr检出结果较差时,其给出的标题将与真实的标题相距甚远,甚至有乱码的情况出现,即,提供的标题信息不够准确。
技术实现思路
本申请实施例的主要目的在于提供一种标题段落检测方法及装置,能够给出更准确的标题信息。本申请实施例提供了一种标题段落检测方法,包括:获取待检测的目标文本;将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。可选的,所述将所述目标文本划分为各个文本段落,包括:识别所述目标文本中的全部或部分文本行,作为各个文本行;生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;根据各个文本行的行特征,将所述目标文本划分为各个文本段落。可选的,所述根据各个文本行的行特征,将所述目标文本划分为各个文本段落,包括:根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。可选的,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;所述第一类型的文本段落包括一个文本行,且满足第一条件;所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。可选的,所述根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,包括:将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落;生成各个待检测段落的初始段落特征,所述初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在所述目标文本中的位置信息;根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征,所述目标段落特征携带了对应待检测段落与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与所述相邻段落在所述目标文本中的位置信息;根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。可选的,所述根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测,包括:按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落;根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落。可选的,所述根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落,包括:生成所述当前段落对应的辅助特征,所述辅助特征包括辅助段落的目标段落特征,所述辅助段落为所述当前段落之前的各个待检测段落中的一个段落且该段落属于标题段落的概率最大;根据所述当前段落的目标段落特征以及辅助特征,判断所述当前段落是否为标题所在段落。本申请还提供了一种标题段落检测装置,包括:目标文本获取单元,用于获取待检测的目标文本;文本段落划分单元,用于将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;标题段落检测单元,用于根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。可选的,所述文本段落划分单元,包括:文本行识别子单元,用于识别所述目标文本中的全部或部分文本行,作为各个文本行;行特征生成子单元,用于生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;文本段落划分子单元,用于根据各个文本行的行特征,将所述目标文本划分为各个文本段落。可选的,所述文本段落划分子单元,包括:行间特征生成模块,用于根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;文本段落划分模块,用于根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。可选的,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;所述第一类型的文本段落包括一个文本行,且满足第一条件;所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。可选的,所述标题段落检测单元,包括:待检测段落获取子单元,用于将各个文本段落或各个文本段落中的前N个段落,作为各个待本文档来自技高网...

【技术保护点】
1.一种标题段落检测方法,其特征在于,包括:获取待检测的目标文本;将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。

【技术特征摘要】
1.一种标题段落检测方法,其特征在于,包括:获取待检测的目标文本;将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本划分为各个文本段落,包括:识别所述目标文本中的全部或部分文本行,作为各个文本行;生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;根据各个文本行的行特征,将所述目标文本划分为各个文本段落。3.根据权利要求2所述的方法,其特征在于,所述根据各个文本行的行特征,将所述目标文本划分为各个文本段落,包括:根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。4.根据权利要求1所述的方法,其特征在于,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;所述第一类型的文本段落包括一个文本行,且满足第一条件;所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,包括:将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落;生成各个待检测段落的初始段落特征,所述初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在所述目标文本中的位置信息;根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征,所述目标段落特征携带了对应待检测段落与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与所述相邻段落在所述目标文本中的位置信息;根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。6.根据权利要求5所述的方法,其特征在于,所述根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测,包括:按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落;根据所述当前段落...

【专利技术属性】
技术研发人员:任晟德李宝善
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1