一种文档段落排序方法、排序装置、电子设备及存储介质制造方法及图纸

技术编号:20917001 阅读:19 留言:0更新日期:2019-04-20 09:47
本发明专利技术实施例提供了一种文档段落排序方法、排序装置、电子设备及存储介质,其中方法包括:接收待处理的目标格式文档;获取目标格式文档中的文本段落,得到各文本段落的定位信息,以及各文本段落的文本行信息;基于文本段落的定位信息,确定文本段落间的相对位置信息;基于文本段落的文本行信息,确定文本段落间的紧密度;基于文本段落的相对位置信息及文本段落的紧密度,对文本段落进行排序。本发明专利技术实施例能够减少文本段落排序错乱情况的发生,从而提高文本段落的排序准确性。

A Document Paragraph Sorting Method, Sorting Device, Electronic Equipment and Storage Media

The embodiment of the present invention provides a document paragraph sorting method, a sorting device, an electronic device and a storage medium. The methods include: receiving the target format document to be processed; acquiring the text paragraph in the target format document, obtaining the location information of each text paragraph, and the text line information of each text paragraph; and determining the text paragraph based on the location information of the text paragraph. Relative location information; based on the text line information of text paragraph, determine the compactness between text paragraphs; based on the relative location information of text paragraph and the compactness of text paragraph, sort text paragraphs. The embodiment of the present invention can reduce the occurrence of text paragraph sorting disorder, thereby improving the sorting accuracy of text paragraph.

【技术实现步骤摘要】
一种文档段落排序方法、排序装置、电子设备及存储介质
本专利技术涉及版式分析
,特别是涉及一种文档段落排序方法、排序装置、电子设备及存储介质。
技术介绍
随着文字识别技术的发展,人们可以将文本格式的文档转换为非文本格式的文档,例如,TIFF(TagImageFileFormat,标签图像文件格式)格式,PDF格式等,从而更有利于文档的发布、传播和存档。在将非文本格式文档转换为文本格式文档的过程中,需要对文档中的各文本段落进行排序。现有的文档段落排序方法,例如阅读顺序算法,通常单纯的基于阅读顺序,对非文本格式文档中所识别的文本段落进行排序,即,按照从左到右、从上到下的顺序,对识别的各文本段落进行排序。而一份文档通常都是多栏的,例如,图1所示的一份文档中,存在多栏区域-单栏区域-多栏区域三个区域(图中由上至下3个虚线框区域),且文档顶端具有页眉,文档底端具有页脚。当遇到文档中存在多栏及页眉和/或页脚情况时,如果仍基于阅读顺序对文本段落排序,现有方法会将页眉和页脚也识别为文章的其中一个文本段落,使页眉或页脚夹在文章正文中,从而导致文本段落排序错乱。例如,如图1所示,箭头显示为阅读顺序算法的排序结果,由于阅读顺序算法仅依据在文档页面上的空间位置信息,因此无法正确处理多栏混排情况,易导致文本段落排序错乱。
技术实现思路
本专利技术实施例的目的在于提供一种文档段落排序方法,以提高文档中文本段落的排序准确性。具体技术方案如下:第一方面,本专利技术实施例提供了一种文档段落排序方法,包括:接收待处理的目标格式文档;所述目标格式文档中包含文本信息;获取所述目标格式文档中的文本段落,得到各文本段落的定位信息,以及各文本段落的文本行信息;基于所述文本段落的定位信息,确定所述文本段落间的相对位置信息;基于所述文本段落的文本行信息,确定所述文本段落间的紧密度;基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序。可选的,所述基于所述文本段落中的文本行信息,确定所述文本段落间的紧密度的步骤,包括:针对所获取的所述文本段落,将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络,得到所述第一文本段落和所述第二文本段落间的困惑度;所述第一文本段落和所述第二文本段落为所获取的文段段落中的其中两个文本段落;根据所述困惑度与预设阈值之间的大小比对结果,确定所述第一文本段落和所述第二文本段落间的紧密度。可选的,所述基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序的步骤,包括:将所述文本段落的相对位置信息输入第一算法模型,得到各文本段落的排序结果;根据所确定的文本段落间的紧密度,对排序后的文本段落的位序进行调整。可选的,所述基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序的步骤,包括:将所述文本段落的相对位置信息和文本段落间的紧密度输入第二算法模型,得到各文本段落的排序结果。可选的,所述根据所述困惑度与预设阈值之间的大小关系,确定所述第一文本段落和所述第二文本段落间的紧密度的步骤,包括:如果所述第一文本段落和所述第二文本段落间的困惑度大于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度低;如果所述第一文本段落和所述第二文本段落间的困惑度小于或等于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度高。可选的,所述根据所确定的文本段落间的紧密度,对排序后的文本段落的位序进行调整的步骤,包括:如果所述文本段落与其它文本段落间的紧密度均低,则将所述文本段落调整至页眉处或页脚处。第二方面,本专利技术实施例提供了一种文档段落排序装置,包括:接收模块,用于接收待处理的目标格式文档;所述目标格式文档中包含文本信息;获取模块,用于获取所述目标格式文档中的文本段落,得到各文本段落的定位信息,以及各文本段落的文本行信息;第一确定模块,用于基于所述文本段落的定位信息,确定所述文本段落间的相对位置信息;第二确定模块,用于基于所述文本段落的文本行信息,确定所述文本段落间的紧密度;排序模块,用于基于所述文本段落的相对位置关系及所述文本段落的紧密度,对所述文本段落进行排序。可选的,所述第二确定模块,包括:处理子模块,用于针对所获取的所述文本段落,将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络,得到所述第一文本段落和所述第二文本段落间的困惑度;所述第一文本段落和所述第二文本段落为所获取的文段段落中的其中两个文本段落;确定子模块,用于根据所述困惑度与预设阈值之间的大小比对结果,确定所述第一文本段落和所述第二文本段落间的紧密度。可选的,所述排序模块,包括:获取子模块,用于将所述文本段落的相对位置信息输入第一算法模型,得到各文本段落的排序结果;调整子模块,用于根据所确定的文本段落间的紧密度,对排序后的文本段落的位序进行调整。可选的,所述排序模块,具体用于:将所述文本段落的相对位置信息和文本段落间的紧密度输入第二算法模型,得到各文本段落的排序结果。可选的,所述确定子模块,包括:第一确定单元,用于如果所述第一文本段落和所述第二文本段落间的困惑度大于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度低;第二确定单元,用于如果所述第一文本段落和所述第二文本段落间的困惑度小于或等于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度高。可选的,所述调整子模块,具体用于:如果所述文本段落与其它文本段落间的紧密度均低,则将所述文本段落调整至页眉处或页脚处。第三方面,本专利技术实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述第一方面提供的文档段落排序方法的方法步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面提供的文档段落排序方法的方法步骤。第五方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面提供的文档段落排序方法的方法步骤。第六方面,本专利技术实施例还提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面提供的文档段落排序方法的方法步骤。本专利技术实施例提供的一种文档段落排序方法、排序装置、电子设备及存储介质,接收待识别的目标格式文档后,通过获取目标格式文档中的文本段落,各文本段落的定位信息,以及各文本段落的文本行信息,从而确定文本段落间的相对位置信息及文本段落间的紧密度,进而基于文本段落的相对位置信息及文本段落的紧密度,对文本段落进行排序,因此,相较于仅单纯采用阅读顺序对各文本段落排序的方法,能够避免语义连贯性不高的页眉或页脚夹在文档的正文中,减少文本段落排序错乱情况的发生,从而提高文本段落的排序准确性。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本本文档来自技高网...

【技术保护点】
1.一种文档段落排序方法,其特征在于,所述方法包括:接收待处理的目标格式文档;所述目标格式文档中包含文本信息;获取所述目标格式文档中的文本段落,得到各文本段落的定位信息,以及各文本段落的文本行信息;基于所述文本段落的定位信息,确定所述文本段落间的相对位置信息;基于所述文本段落的文本行信息,确定所述文本段落间的紧密度;基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序。

【技术特征摘要】
1.一种文档段落排序方法,其特征在于,所述方法包括:接收待处理的目标格式文档;所述目标格式文档中包含文本信息;获取所述目标格式文档中的文本段落,得到各文本段落的定位信息,以及各文本段落的文本行信息;基于所述文本段落的定位信息,确定所述文本段落间的相对位置信息;基于所述文本段落的文本行信息,确定所述文本段落间的紧密度;基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本段落中的文本行信息,确定所述文本段落间的紧密度的步骤,包括:针对所获取的所述文本段落,将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络,得到所述第一文本段落和所述第二文本段落间的困惑度;所述第一文本段落和所述第二文本段落为所获取的文段段落中的其中两个文本段落;根据所述困惑度与预设阈值之间的大小比对结果,确定所述第一文本段落和所述第二文本段落间的紧密度。3.根据权利要求1所述的方法,其特征在于,所述基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序的步骤,包括:将所述文本段落的相对位置信息输入第一算法模型,得到各文本段落的排序结果;根据所确定的文本段落间的紧密度,对排序后的文本段落的位序进行调整。4.根据权利要求1所述的方法,其特征在于,所述基于所述文本段落的相对位置信息及所述文本段落的紧密度,对所述文本段落进行排序的步骤,包括:将所述文本段落的相对位置信息和文本段落间的紧密度输入第二算法模型,得到各文本段落的排序结果。5.根据权利要求2所述的方法,其特征在于,所述根据所述困惑度与预设阈值之间的大小关系,确定所述第一文本段落和所述第二文本段落间的紧密度的步骤,包括:如果所述第一文本段落和所述第二文本段落间的困惑度大于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度低;如果所述第一文本段落和所述第二文本段落间的困惑度小于或等于预设阈值,则确定所述第一文本段落和所述第二文本段落间的紧密度高。6.根据权利要求3所述的方法,其特征在于,所述根据所确定的文本段落间的紧密度,对排序后的文本段落的位序进行调整的步骤,包括:如果所述文本段落与其它文本段落间的紧密度均低,则将所述文本段落调整至页眉处或页脚处。7.一种文档段落排序装置,其特征在于,所述装置包括:接收模块,用于接收待处理的目标格式文档;所述目标...

【专利技术属性】
技术研发人员:詹华年王洪伟刘天悦丁洪利
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山互动娱乐科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1