OFD版式文档段落识别方法及装置制造方法及图纸

技术编号:33135848 阅读:28 留言:0更新日期:2022-04-17 01:00
本申请公开了一种OFD版式文档段落识别方法及装置,用以解决版式文档提取文字段落错误率高的技术问题。其中,一种OFD版式文档段落识别方案,通过对所述版式图像进行图像分割,至少生成若干文字块;提取所述若干文字块的特征属性;将相似版式进行聚类,生成元素为文字块的若干聚类文字块集合;对所述若干聚类文字块集合进行段落识别,生成段落块信息;根据所述段落块信息,更新版式文档中的段落标识。以便操作者在对文本段落进行提取时,可以得到还原流式格式的字符串。并且通过对文字块的语义连续性进行计算,提高了识别文本段落的准确性。同时,还针对OFD版式文档表格提出了一种新的文本提取方案,提高了文本提取的泛用性。提高了文本提取的泛用性。提高了文本提取的泛用性。

【技术实现步骤摘要】
OFD版式文档段落识别方法及装置


[0001]本申请涉及数字文本编辑
,尤其涉及一种OFD版式文档段落识别方法及装置。

技术介绍

[0002]版式文档是版面呈现效果固定的电子文件。版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。与流式文档不同,版式文档格式是版面呈现效果固定的电子文档格式,它采用一种绝对描述方式,在版式文档中明确标识了每个页面每个元素的显示位置、尺寸、样式等信息。它以坐标的方式对每一行的内容进行定义,而没有流式文档中所谓的段落、标题、表格等排版特性。
[0003]在实现现有技术的过程中,专利技术人发现:
[0004]因为版式文档没有流式文档中所谓的段落、标题、表格等排版特性,当需要对版式文档中的文本内容进行提取时,提取出的文字经常出现段落错乱的问题。
[0005]因此,需要提供一种OFD版式文档段落识别方案,用以解决版式文档提取文字段落错误率高的技术问题。

技术实现思路

[0006]本申请实施例提供一种OFD版式文档段落识别方案,用以解决版式文档本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种OFD版式文档段落识别方法,其特征在于,包括以下步骤:获取版式文档;对所述版式文档进行解析,生成版式图像;对所述版式图像进行图像分割,至少生成若干文字块;提取所述若干文字块的特征属性;采用聚类运算模型,对所述文字块的特征属性进行聚类运算,生成文字块的聚类结果;采用聚类评价模型,对所述文字块的聚类结果进行分类,生成元素为文字块的若干聚类文字块集合;采用语义模型计算第一聚类文字块集合与第二聚类文字块集合的关联性;根据第一聚类文字块集合中文字块的特征属性或所述第一聚类文字块集合与第二聚类文字块集合的关联性,对所述若干聚类文字块集合进行段落识别,生成段落块信息;根据所述段落块信息,更新版式文档中的段落标识。2.如权利要求1所述的OFD版式文档段落识别方法,其特征在于,采用聚类运算模型,对所述文字块信息进行聚类运算,生成文字块的聚类结果,具体包括:设所述文字块的向量为X={x1,x2,...,x
n
};采用采用计算文字块的聚类结果;式中,F是所述文字块的聚类结果,n是待分类的文字块个数,c为聚类的类别数,v
i
(i=1,2,...,c)是类别i的聚类中心,m和u、i、j分别是算法定义的加权指数和文字块向量x
i
对类别j的隶属度,k和u、i、j分别是算法定义的加权指数和文字块向量x
i
对类别j的概率,d(x
j
,v
i
)是文字块信息x
j
到聚类中心v
i
的欧氏距离,表示整个文本信息块的聚类中心,是聚类中心v
i
到聚类中心的欧式距离,v
p
,v
q
是类别p和类别q的聚类中心,d(v
p
,v
q
)是聚类中心v
p
到聚类中心v
q
的欧式距离。3.如权利要求1所述的OFD版式文档段落识别方法,其特征在于,采用聚类评价模型,对所述文字块的聚类结果进行分类,生成元素为文字块的若干聚类文字块集合,具体包括:采用聚类评价函数Q对所述文字块的聚类结果进行评分;设n为待分类的文字块总数,c表示聚类的类别数,k表示加权指数,且k>1,v
i
表示类别i的聚类中心,v
s
表示类别s的聚类中心,所述聚类评价函数Q为:式中A和B是系数,且A+B=1;将评分在容忍系数内的文字块归为同一类文字块,生成由若干同一类文字块构成的聚类文字块集合。
4.如权利要求1所述的OFD版式文档段落识别方法,其特征在于,根据第一聚类文字块集合中文字块的特征属性或所述第一聚类文字块集合与第二聚类文字块集合的关联性,对所述若干聚类文字块集合进行段落识别,生成段落块信息,具体包括:根据第一聚类文字块集合中位置最后的文字块的位置与前一文字块的位置,判断第一聚类文字块集合中位置最后的文字块与前一文字块是否同行;当第一聚类文字块集合中位置最后的文字块与前一文字块不同行,识别第一聚类文字块集合中位置最后的文字块是否为预设文字块;当所述第一聚类文字块集合中位置最后的文字块为预设文字块,定义第一聚类文字块集合为段落块。5.如权利要求4所述的OFD版式文档段落识别方法,其特征...

【专利技术属性】
技术研发人员:赵岳贺敏朱相宇应志红刘明
申请(专利权)人:北京华宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1