文档的分割方法、装置及电子设备制造方法及图纸

技术编号：26066557 阅读：8 留言：0更新日期：2020-10-28 16:39

本申请公开了一种文档的分割方法、装置及电子设备，涉及深度学习及自然语言处理技术领域。具体实现方案为：获取目标文档；从目标文档之中提取多个元素；获取多个元素的语义特征和图像特征；根据多个元素的语义特征和图像特征确定多个分割点；根据多个分割点对目标文档进行分割。由此，通过这种文档的分割方法，引入文档中包括的各元素的图像特征，对各元素的文本结构进行表达，以通过综合考虑文档的语义信息和文本结构特征，将文档分割为语义差异较大且文本结构相似的短文本，从而提升了文本分割的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文档的分割方法、装置及电子设备
本申请涉及计算机
，尤其涉及深度学习及自然语言处理
，提出一种文档的分割方法、装置及电子设备。
技术介绍
文档文本分割是自然语言处理领域的一个常见应用。比如，将一段长文本划分为一系列结构相似的短文本。相关技术中，通常根据文档中前后句子间的关联度特征，从纯语义角度找到文档中的最佳分割位置。但是，这种文档分割方法，由于仅考虑了文档中句子的语义信息，从而导致分割结果的准确度较低。
技术实现思路
本申请提供了一种用于文档分割的方法、装置、电子设备以及存储介质。根据本申请的一方面，提供了一种文档的分割方法，包括：获取目标文档；从所述目标文档之中提取多个元素；获取所述多个元素的语义特征和图像特征；根据所述多个元素的语义特征和所述图像特征确定多个分割点；以及根据所述多个分割点对所述目标文档进行分割。根据本申请的另一方面，提供了一种文档的分割装置，包括：第一获取模块，用于获取目标文档；提取模块，用于从所述目标文档之中提取多个元素；第二获取模块，用于获取所述多个元素的语义特征和图像特征；确定模块，用于根据所述多个元素的语义特征和所述图像特征确定多个分割点；以及分割模块，用于根据所述多个分割点对所述目标文档进行分割。根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够...

【技术保护点】
1.一种文档的分割方法，其特征在于，包括：/n获取目标文档；/n从所述目标文档之中提取多个元素；/n获取所述多个元素的语义特征和图像特征；/n根据所述多个元素的语义特征和所述图像特征确定多个分割点；以及/n根据所述多个分割点对所述目标文档进行分割。/n

【技术特征摘要】
1.一种文档的分割方法，其特征在于，包括：
获取目标文档；
从所述目标文档之中提取多个元素；
获取所述多个元素的语义特征和图像特征；
根据所述多个元素的语义特征和所述图像特征确定多个分割点；以及
根据所述多个分割点对所述目标文档进行分割。

2.如权利要求1所述的文档的分割方法，其特征在于，所述获取所述多个元素的语义特征，包括：
获取所述元素之中多个字符的多个特征表达；以及
根据所述多个字符的多个特征表达生成所述语义特征。

3.如权利要求1所述的文档的分割方法，其特征在于，所述获取所述多个元素的图像特征，包括：
获取所述多个元素的空间位置特征；
获取所述多个元素的字体特征；以及
根据所述多个元素的空间位置特征和所述字体特征，生成所述多个元素的图像特征。

4.如权利要求3所述的文档的分割方法，其特征在于，所述多个元素的字体特征包括字体类型特征、字体颜色特征和字体大小特征之中的一种或多种。

5.如权利要求1所述的文档的分割方法，其特征在于，所述根据所述多个元素的语义特征和所述图像特征确定多个分割点，包括：
将所述多个元素的语义特征和所述图像特征输入文档分割模型之中，以生成所述多个分割点。

6.如权利要求5所述的文档的分割方法，其特征在于，所述将所述多个元素的语义特征和所述图像特征输入文档分割模型之中，以生成所述多个分割点，包括：
所述文档分割模型根据所述语义特征和所述图像特征生成第一至第T特征表达，并将所述第一特征表达与所述第一至第T特征表达进行联合以生成联合特征，根据所述联合特征进行分类以生成所述多个分割点，其中，T为总体时间步。

7.如权利要求1-6任一所述的文档的分割方法，其特征在于，所述获取目标文档，包括：
获取待处理文档；
对所述待处理文档进行解析处理，以确定所述待处理文档中包括的各待处理元素的空间位置特征；
根据所述各待处理元素的空间位置特征，确定待合并的候选元素对；
将所述候选元素对进行合并处理，以生成所述目标文档。

8.一种文档的分割装置，其特征在于，包括：
第一获取模块，用于获取目标文档；
提取模块，用于从所述目标文档之中提取多个元素；
第二获取模块，用于获取所述多个元素的语义特征和图像特征；
确定模块，用于根据所述多个元素的语义特征和所述图像特征确定多个分割点；...

【专利技术属性】
技术研发人员：刘涵，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人