文档的分割方法、装置及电子设备制造方法及图纸

技术编号:26066557 阅读:8 留言:0更新日期:2020-10-28 16:39
本申请公开了一种文档的分割方法、装置及电子设备,涉及深度学习及自然语言处理技术领域。具体实现方案为:获取目标文档;从目标文档之中提取多个元素;获取多个元素的语义特征和图像特征;根据多个元素的语义特征和图像特征确定多个分割点;根据多个分割点对目标文档进行分割。由此,通过这种文档的分割方法,引入文档中包括的各元素的图像特征,对各元素的文本结构进行表达,以通过综合考虑文档的语义信息和文本结构特征,将文档分割为语义差异较大且文本结构相似的短文本,从而提升了文本分割的准确度。

【技术实现步骤摘要】
文档的分割方法、装置及电子设备
本申请涉及计算机
,尤其涉及深度学习及自然语言处理
,提出一种文档的分割方法、装置及电子设备。
技术介绍
文档文本分割是自然语言处理领域的一个常见应用。比如,将一段长文本划分为一系列结构相似的短文本。相关技术中,通常根据文档中前后句子间的关联度特征,从纯语义角度找到文档中的最佳分割位置。但是,这种文档分割方法,由于仅考虑了文档中句子的语义信息,从而导致分割结果的准确度较低。
技术实现思路
本申请提供了一种用于文档分割的方法、装置、电子设备以及存储介质。根据本申请的一方面,提供了一种文档的分割方法,包括:获取目标文档;从所述目标文档之中提取多个元素;获取所述多个元素的语义特征和图像特征;根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及根据所述多个分割点对所述目标文档进行分割。根据本申请的另一方面,提供了一种文档的分割装置,包括:第一获取模块,用于获取目标文档;提取模块,用于从所述目标文档之中提取多个元素;第二获取模块,用于获取所述多个元素的语义特征和图像特征;确定模块,用于根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及分割模块,用于根据所述多个分割点对所述目标文档进行分割。根据本申请的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的文档的分割方法。根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如前所述的文档的分割方法。根据本申请的技术方案,解决了相关技术中,基于文档中句子的语义信息进行文档分割的方法,准确度较低的问题。通过从目标文档之中提取多个元素,并获取多个元素的语义特征和图像特征,之后根据多个元素的语义特征和图像特征确定多个分割点,进而根据多个分割点对目标文档进行分割。由此,通过引入文档中包括的各元素的图像特征,对各元素的文本结构进行表达,以通过综合考虑文档的语义信息和文本结构特征,将文档分割为语义差异较大且文本结构相似的短文本,从而提升了文本分割的准确度。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例所提供的一种文档的分割方法的流程示意图;图2为本申请实施例所提供的另一种文档的分割方法的流程示意图;图3为本申请实施例所提供的一种通过文档分割模型对目标文档进行分割的示意图;图4为本申请实施例所提供的再一种文档的分割方法的流程示意图;图5为本申请实施例提供的一种文档的分割装置的结构示意图;图6为用来实现本申请实施例的文档的分割方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本申请实施例针对相关技术中,基于文档中句子的语义信息进行文档分割的方法,准确度较低的问题,提出一种文档的分割方法。下面参考附图对本申请提供的文档的分割方法、装置、电子设备及存储介质进行详细描述。图1为本申请实施例所提供的一种文档的分割方法的流程示意图。如图1所示,该文档的分割方法,包括以下步骤:步骤101,获取目标文档。需要说明的是,本申请实施例的文档的分割方法,可以由本申请实施例的文档的分割装置执行。本申请实施例的文档的分割装置可以配置在任意电子设备中,以执行本申请实施例的文档的分割方法。其中,目标文档,是指当前需要对其进行分割,以生成多个短文本的文档。在本申请实施例中,可以在获取到需要进行分割的文档之后,确定文档的格式。若文档的格式与预设的文档格式不同,则可以利用文档转换工具对文档进行格式转换,以将文档转换为预设的文档格式,生成目标文档。比如,预设的文档格式为PDF格式,获取到的需要进行分割的文档为Word文档,则可以利用office文档转换工具将该文档转换为PDF格式的目标文档。步骤102,从目标文档之中提取多个元素。其中,元素,可以是目标文档中的独立的字符、字符串、分词、短语、句子等。实际使用时,可以根据实际需要及具体的应用场景,确定对目标文档进行元素提取的元素粒度,本申请实施例对此不做限定。作为一种可能的实现方式,可以将目标文档中的每个分词,确定为文档中包括的元素。因此,可以对目标文档进行分词处理,以确定目标文档中包括的各分词,进而将目标文档中包括的各分词,确定为目标文档包括的多个元素。举例来说,目标文档为英文文档,则可以将目标文档中包括的每个单词,确定为目标文档中包括的元素。从而,可以利用英文分词工具对目标文档进行分词处理,以确定目标文档中包括的各元素。作为另一种可能的实现方式,还可以将目标文档中的每个字符,确定为目标文档中包括的各元素;或者,还可以将目标文档中的每个句子,确定为目标文档中包括的各元素。举例来说,目标文档为中文文档,则可以将目标文档中的每个字符确定为目标文档中包括的各元素,从而可以对目标文档进行分词处理,以确定目标文档中包括的每个字符,进而将目标文档中包括的每个字符,确定为目标文档中包括的各元素;或者,还可以对目标文档中包括的标点符号进行识别,并确定每两个标点符号之间的句子,进而将确定的每个句子确定为目标文档中包括的各元素。步骤103,获取多个元素的语义特征和图像特征。其中,语义特征,是指元素的语义信息的向量表示;图像特征,是指元素的在目标文档中的字体、颜色、空间位置等信息的向量表示。在本申请实施例中,提取出目标文档中包括的多个元素之后,可以采用任意的词向量映射算法,确定每个元素对应的词向量,进而将每个元素对应的词向量分别确定为每个元素的语义特征。之后,可以利用文档解析工具,确定各元素的空间位置、字体、颜色等信息,进而将元素的空间位置、字体、颜色等信息进行向量映射,以生成每个元素对应的图像特征。举例来说,目标文档为PDF文档,目标文档中包括的各元素为目标文档中的各分词,则可以采用ERNIE(EnhancedLanguageRepresentationwithInformativeEntities,利用信息实体的增强语言表示)模型,确定元素中每个字符的向量表示,进而将元素中每个字符的向量表示的加权均值,确定为元素的语义特征。确定出目标文档中包括的各元素的语义特征之后,可以本文档来自技高网...

【技术保护点】
1.一种文档的分割方法,其特征在于,包括:/n获取目标文档;/n从所述目标文档之中提取多个元素;/n获取所述多个元素的语义特征和图像特征;/n根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及/n根据所述多个分割点对所述目标文档进行分割。/n

【技术特征摘要】
1.一种文档的分割方法,其特征在于,包括:
获取目标文档;
从所述目标文档之中提取多个元素;
获取所述多个元素的语义特征和图像特征;
根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及
根据所述多个分割点对所述目标文档进行分割。


2.如权利要求1所述的文档的分割方法,其特征在于,所述获取所述多个元素的语义特征,包括:
获取所述元素之中多个字符的多个特征表达;以及
根据所述多个字符的多个特征表达生成所述语义特征。


3.如权利要求1所述的文档的分割方法,其特征在于,所述获取所述多个元素的图像特征,包括:
获取所述多个元素的空间位置特征;
获取所述多个元素的字体特征;以及
根据所述多个元素的空间位置特征和所述字体特征,生成所述多个元素的图像特征。


4.如权利要求3所述的文档的分割方法,其特征在于,所述多个元素的字体特征包括字体类型特征、字体颜色特征和字体大小特征之中的一种或多种。


5.如权利要求1所述的文档的分割方法,其特征在于,所述根据所述多个元素的语义特征和所述图像特征确定多个分割点,包括:
将所述多个元素的语义特征和所述图像特征输入文档分割模型之中,以生成所述多个分割点。


6.如权利要求5所述的文档的分割方法,其特征在于,所述将所述多个元素的语义特征和所述图像特征输入文档分割模型之中,以生成所述多个分割点,包括:
所述文档分割模型根据所述语义特征和所述图像特征生成第一至第T特征表达,并将所述第一特征表达与所述第一至第T特征表达进行联合以生成联合特征,根据所述联合特征进行分类以生成所述多个分割点,其中,T为总体时间步。


7.如权利要求1-6任一所述的文档的分割方法,其特征在于,所述获取目标文档,包括:
获取待处理文档;
对所述待处理文档进行解析处理,以确定所述待处理文档中包括的各待处理元素的空间位置特征;
根据所述各待处理元素的空间位置特征,确定待合并的候选元素对;
将所述候选元素对进行合并处理,以生成所述目标文档。


8.一种文档的分割装置,其特征在于,包括:
第一获取模块,用于获取目标文档;
提取模块,用于从所述目标文档之中提取多个元素;
第二获取模块,用于获取所述多个元素的语义特征和图像特征;
确定模块,用于根据所述多个元素的语义特征和所述图像特征确定多个分割点;...

【专利技术属性】
技术研发人员:刘涵
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1