文档分割方法及装置制造方法及图纸

技术编号:25990033 阅读:25 留言:0更新日期:2020-10-20 18:58
本发明专利技术实施例提供了一种文档分割方法及装置,所述方法首先获取待分割文档;然后以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量,同时考虑了分割点的长度均匀性以及语义关联性,使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题,为任务的平均分配提供了极有利的理论基础。

【技术实现步骤摘要】
文档分割方法及装置
本专利技术涉及文档处理
,更具体地,涉及文档分割方法及装置。
技术介绍
目前,将一篇长文档分割为连续的文档片段,在一些业务场景中有明确的需求。例如,在语言服务行业,需要将一篇长文档分割后交由多个译员同时翻译,以快速完成翻译任务。将文档进行分割通常隐含如下的约束:(1)分割的片段数量N是指定的,并且分界点在段落的结尾处,以保证不破坏段落的完整性;(2)分割的各片段的长度相对均匀,使得对于翻译任务而言,各译员工作量均衡;(3)各片段语义内容上尽量连贯、完整,即分割片段在语义上高内聚、低耦合;(4)实现程序自动分割,一方面可提高效率;另一方面,对于翻译任务,任务分配者可能缺乏专业知识导致无法进行合理的人工分割。基于此,现有技术中提供了一种基于词向量的文档分割方法,将词向量作为文档分割的标准,但该方法主要考虑的是语义这一个维度,无法保证分割得到的各片段的长度的均匀性。
技术实现思路
为克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供了一种文档分割方法及装置。第一方面,本专利技术实施例提供了一种文档分割方法,包括:S1,获取待分割文档;S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。优选地,所述基于遗传算法,对所述待分割文档进行分割,具体包括:S21,确定初始个体;S22,计算每个基因的质量;S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。优选地,所述S21具体包括:S211,以所述待分割文档的起始段落为起点,确定包含有若干个连续段落的片段的长度;S212,若判断获知所述片段的长度小于等于预设长度,且在所述片段中增加一个邻近的后续段落后,得到的新片段的长度大于所述预设长度,则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点;S213,以所述分割点为起点,确定包含有若干个连续段落的片段的长度,并返回至S212继续执行,直至确定出所述指定个数的分割点,得到所述遗传算法中的初始个体。优选地,所述遗传操作包括基因调整和基因变异,所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置,所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。优选地,所述S23中基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,具体包括:对于每个新个体,基于所述新个体的每个基因的质量,计算所述新个体中所有基因的质量之和,并将所有质量之和作为所述新个体的个体适应度。优选地,所述长度均匀性参数具体通过如下方法确定:对于所述个体的每一分割点,计算所述分割点左右两侧的片段之间的长度差值;对所述长度差值进行归一化处理,得到所述分割点的长度均匀性参数。优选地,所述个体的每个基因的质量具体通过如下方法确定:计算1与每个分割点的长度均匀性参数的差值;计算所述差值和语义关联性参数的乘积,将所述乘积作为每个分割点对应的基因的质量得分。第二方面,本专利技术实施例提供了一种文档分割装置,包括:获取模块和分割模块。其中,获取模块用于获取待分割文档;分割模块用于以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。第三方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的文档分割方法的步骤。第四方面,本专利技术实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的文档分割方法的步骤。本专利技术实施例提供的一种文档分割方法及装置,所述方法首先获取待分割文档;然后以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量,同时考虑了分割点的长度均匀性以及语义关联性,使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题,为任务的平均分配提供了极有利的理论基础。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文档分割方法的流程示意图;图2为本专利技术实施例提供的一种文档分割方法的分割过程示意图;图3为本专利技术实施例提供的一种文档分割方法中遗传算法的具体流程示意图;图4为本专利技术实施例提供的一种文档分割装置的结构示意图;图5为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种文档分割方法,包括:S1,获取待分割文档;S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关本文档来自技高网...

【技术保护点】
1.一种文档分割方法,其特征在于,包括:/nS1,获取待分割文档;/nS2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;/n其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。/n

【技术特征摘要】
1.一种文档分割方法,其特征在于,包括:
S1,获取待分割文档;
S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。


2.根据权利要求1所述的文档分割方法,其特征在于,所述基于遗传算法,对所述待分割文档进行分割,具体包括:
S21,确定初始个体;
S22,计算每个基因的质量;
S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;
S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;
S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。


3.根据权利要求2所述的文档分割方法,其特征在于,所述S21具体包括:
S211,以所述待分割文档的起始段落为起点,确定包含有若干个连续段落的片段的长度;
S212,若判断获知所述片段的长度小于等于预设长度,且在所述片段中增加一个邻近的后续段落后,得到的新片段的长度大于所述预设长度,则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点;
S213,以所述分割点为起点,确定包含有若干个连续段落的片段的长度,并返回至S212继续执行,直至确定出所述指定个数的分割点,得到所述遗传算法中的初始个体。


4.根据权利要求2所述的文档分割方法,其特征在于,所述遗传操作包括基因调整和基因变异,所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1