文本对齐方法和装置、电子设备及存储介质制造方法及图纸

技术编号:38046586 阅读:11 留言:0更新日期:2023-06-30 11:12
本申请实施例提供了一种文本对齐方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取预设的基准文本,获取并根据原始文本片段进行滑窗比值计算得到原始滑窗比值;根据原始滑窗比值和基准文本对原始文本片段进行编辑距离计算得到初步编辑距离;根据初步编辑距离对原始滑窗比值进行筛选得到初步滑窗比值;根据初步滑窗比值对原始滑窗比值进行收缩得到目标滑窗比值;根据目标滑窗比值和基准文本对原始文本片段进行编辑距离计算得到目标编辑距离;根据目标编辑距离对目标滑窗比值进行比值筛选得到当前滑窗比值;根据当前滑窗比值将原始文本片段和基准文本进行对齐得到目标文本。本申请实施例在少量资源的情况下,实现文本对齐。实现文本对齐。实现文本对齐。

【技术实现步骤摘要】
文本对齐方法和装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本对齐方法和装置、电子设备及存储介质。

技术介绍

[0002]随着计算机科学和自然语言处理技术的发展,文本对齐工作在计算机辅助下自动化完成。相关技术中,通过深度学习技术对大量文本语料进行训练以构建深度学习语言模型,以通过深度学习语言模型实现文本对齐。但是对于一些文本语料较少的语言类型则难以通过训练深度学习语言模型实现文本对齐,因此,对于文本语料较少的语言类型,如何实现文本对齐是目前亟待解决的问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种文本对齐方法和装置、电子设备及存储介质,旨在少量练习语料的情况下,通过编辑距离实现文本对齐,且提升文本对齐的效果。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种文本对齐方法,所述方法包括:
[0005]获取待处理的待对齐文本和预设的基准文本;其中,所述待对齐文本包括:原始文本片段;
[0006]根据所述原始文本片段的文本长度进行滑窗比值计算,得到原始滑窗比值;
[0007]根据所述原始滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到初步编辑距离;
[0008]根据所述初步编辑距离对所述原始滑窗比值进行筛选处理,得到初步滑窗比值;
[0009]根据所述初步滑窗比值对所述原始滑窗比值进行收缩处理,得到目标滑窗比值;
[0010]根据所述目标滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到目标编辑距离;
[0011]根据所述目标编辑距离对所述目标滑窗比值进行比值筛选处理,得到当前滑窗比值;
[0012]根据所述当前滑窗比值将所述原始文本片段和所述基准文本进行对齐处理,得到目标文本。
[0013]在一些实施例,所述根据所述原始滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到初步编辑距离,包括:
[0014]根据所述原始滑窗比值将所述原始文本片段在所述基准文本上滑动,得到初步滑窗片段;
[0015]将所述初步滑窗片段和所述原始文本片段进行编辑距离计算,得到所述初步编辑距离。
[0016]在一些实施例,所述根据所述原始滑窗比值将所述原始文本片段在所述基准文本
上滑动,得到初步滑窗片段,包括:
[0017]获取所述原始文本片段的文本长度;
[0018]根据所述文本长度和所述原始滑窗比值进行滑窗计算,得到原始滑窗大小;
[0019]将所述原始文本片段以所述原始滑窗大小在所述基准文本上滑动,得到所述初步滑窗片段。
[0020]在一些实施例,所述根据所述初步编辑距离对所述原始滑窗比值进行筛选处理,得到初步滑窗比值,包括:
[0021]获取所述初步编辑距离的最小值,得到最小编辑距离;
[0022]根据所述最小编辑距离对所述原始滑窗比值进行筛选处理,得到所述初步滑窗比值。
[0023]在一些实施例,所述根据所述最小编辑距离对所述原始滑窗比值进行筛选处理,得到所述初步滑窗比值,包括:
[0024]获取所述最小编辑距离的所述初步滑窗片段,得到候选滑窗片段;
[0025]获取每一所述原始滑窗比值的所述候选滑窗片段的片段数;
[0026]根据所述片段数对所述原始滑窗比值进行筛选处理,得到所述初步滑窗比值。
[0027]在一些实施例,所述根据所述初步滑窗比值对所述原始滑窗比值进行收缩处理,得到目标滑窗比值,包括:
[0028]获取所述原始滑窗比值的上限值,得到滑窗上限值;
[0029]根据所述初步滑窗比值将所述滑窗上限值进行替换处理,得到所述目标滑窗比值。
[0030]在一些实施例,所述根据所述目标滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到目标编辑距离,包括:
[0031]根据所述文本长度和所述目标滑窗比值进行滑窗计算,得到目标滑窗大小;
[0032]将所述原始文本片段以所述目标滑窗大小在所述基准文本上滑动,得到目标滑窗片段;
[0033]将所述目标滑窗片段和所述原始文本片段进行编辑距离计算,得到所述目标编辑距离。
[0034]为实现上述目的,本申请实施例的第二方面提出了一种文本对齐装置,所述装置包括:
[0035]文本获取模块,用于获取待处理的待对齐文本和预设的基准文本;其中,所述待对齐文本包括:原始文本片段;
[0036]滑窗比值计算模块,用于根据所述原始文本片段的文本长度进行滑窗比值计算,得到原始滑窗比值;
[0037]初步计算模块,用于根据所述原始滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到初步编辑距离;
[0038]初步筛选模块,用于根据所述初步编辑距离对所述原始滑窗比值进行筛选处理,得到初步滑窗比值;
[0039]收缩模块,用于根据所述初步滑窗比值对所述原始滑窗比值进行收缩处理,得到目标滑窗比值;
[0040]目标计算模块,用于根据所述目标滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到目标编辑距离;
[0041]目标筛选模块,用于根据所述目标编辑距离对所述目标滑窗比值进行比值筛选处理,得到当前滑窗比值;
[0042]对齐模块,用于根据所述当前滑窗比值将所述原始文本片段和所述基准文本进行对齐处理,得到目标文本。
[0043]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的文本对齐方法。
[0044]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的文本对齐方法。
[0045]本申请提出的文本对齐方法和装置、电子设备及存储介质,其通过计算每一个原始滑窗比值的滑窗片段和原始文本片段的编辑距离,并根据编辑距离不断优化滑窗比值以得到最优的当前滑窗比值,并根据当前滑窗比值将原始文本片段和基准文本对齐。因此,通过计算编辑距离以确定原始文本片段和滑窗片段的匹配度,且根据编辑距离不断优化滑窗比值以确定最优的当前滑窗比值,将原始文本片段根据当前滑窗比值与基准文本对齐,对于少量资源的语言类型的文本对齐也能够实现文本的准确对齐,且对齐操作更加简易、对齐效果更优。除此之外,相对于直接计算原始文本片段和滑窗片段的编辑距离进行对齐的操作,通过根据编辑距离不断优化滑窗比值,以根据优化的当前滑窗比值进行文本对齐,文本对齐效果更优。
附图说明
[0046]图1是本申请实施例提供的文本对齐方法的流程图;
[0047]图2是图1中的步骤S103的流程图;
[0048]图3是图2中的步骤S201的流程图;
[0049]图4是图1中的步骤S104的流程图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对齐方法,其特征在于,所述方法包括:获取待处理的待对齐文本和预设的基准文本;其中,所述待对齐文本包括:原始文本片段;根据所述原始文本片段的文本长度进行滑窗比值计算,得到原始滑窗比值;根据所述原始滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到初步编辑距离;根据所述初步编辑距离对所述原始滑窗比值进行筛选处理,得到初步滑窗比值;根据所述初步滑窗比值对所述原始滑窗比值进行收缩处理,得到目标滑窗比值;根据所述目标滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到目标编辑距离;根据所述目标编辑距离对所述目标滑窗比值进行比值筛选处理,得到当前滑窗比值;根据所述当前滑窗比值将所述原始文本片段和所述基准文本进行对齐处理,得到目标文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始滑窗比值和所述基准文本对所述原始文本片段进行编辑距离计算,得到初步编辑距离,包括:根据所述原始滑窗比值将所述原始文本片段在所述基准文本上滑动,得到初步滑窗片段;将所述初步滑窗片段和所述原始文本片段进行编辑距离计算,得到所述初步编辑距离。3.根据权利要求2所述的方法,其特征在于,所述根据所述原始滑窗比值将所述原始文本片段在所述基准文本上滑动,得到初步滑窗片段,包括:获取所述原始文本片段的文本长度;根据所述文本长度和所述原始滑窗比值进行滑窗计算,得到原始滑窗大小;将所述原始文本片段以所述原始滑窗大小在所述基准文本上滑动,得到所述初步滑窗片段。4.根据权利要求2所述的方法,其特征在于,所述根据所述初步编辑距离对所述原始滑窗比值进行筛选处理,得到初步滑窗比值,包括:获取所述初步编辑距离的最小值,得到最小编辑距离;根据所述最小编辑距离对所述原始滑窗比值进行筛选处理,得到所述初步滑窗比值。5.根据权利要求4所述的方法,其特征在于,所述根据所述最小编辑距离对所述原始滑窗比值进行筛选处理,得到所述初步滑窗比值,包括:获取所述最小编辑距离的所述初步滑窗片段,得到候选滑窗片段;获取每一所述原始滑窗比值的所述候选滑窗片段的片段数;根据所述片段数对所述原始滑窗比值进行...

【专利技术属性】
技术研发人员:李登昊王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1