文本序列对齐方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:39174268 阅读:7 留言:0更新日期:2023-10-27 08:22
本公开的实施例公开了文本序列对齐方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:生成比对标识对矩阵变量;对于每个待比对文本信息的第一标识号,以及每个初始文本信息的第二标识号:确定对应待比对文本信息和初始文本信息的待比对标识对组;生成待比对标识对组中每个待比对标识对所对应的文本关联系数;从待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对;将比对标识对更新至比对标识对矩阵变量;根据所更新的比对标识对矩阵变量,生成文本对齐信息组;对文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示。该实施方式提升了文本序列比对结果准确性。列比对结果准确性。列比对结果准确性。

【技术实现步骤摘要】
文本序列对齐方法、装置、电子设备和计算机可读介质


[0001]本公开的实施例涉及计算机
,具体涉及文本序列对齐方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]文本序列比对,是为确定两个或多个文本序列之间的相似性以至于同源性,将它们按照一定的规律排列。目前,在对文本序列进行比对时,通常采用的方式为:采用点对点的对齐方式对文本序列进行排列。
[0003]然而,当采用上述方式对文本序列进行比对时,经常会存在如下技术问题:
[0004]第一,点对点的对齐方式中一次对齐仅涉及两个点级文本对象,点级文本对象不能代表本地上下文,导致文本序列比对结果准确性较差。
[0005]第二,各个文本序列未一一对应地排列时,用户需耗费较长时间查找与一个文本对象对齐的另一个文本对象,导致用户时间的浪费。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了文本序列对齐方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0008]第一方面,本公开的一些实施例提供了一种文本序列对齐方法,该方法包括:根据初始文本信息数量和待比对文本信息数量,生成比对标识对矩阵变量,其中,上述初始文本信息数量为初始文本信息序列包括的初始文本信息的数量,上述待比对文本信息数量为待比对文本信息序列包括的待比对文本信息的数量;对于上述待比对文本信息序列中的每个待比对文本信息的第一标识号,以及上述初始文本信息序列中的每个初始文本信息的第二标识号,执行以下步骤:确定对应上述待比对文本信息和上述初始文本信息的待比对标识对组;根据上述待比对文本信息序列和上述初始文本信息序列,生成上述待比对标识对组中每个待比对标识对所对应的文本关联系数,得到文本关联系数组;根据上述文本关联系数组,从上述待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对;根据上述第一标识号和上述第二标识号,将上述比对标识对更新至上述比对标识对矩阵变量;根据所更新的比对标识对矩阵变量,生成文本对齐信息组,其中,上述文本对齐信息组中的文本对齐信息包括待比对文本信息段和对应上述待比对文本信息段的初始文本信息段;在相关联的显示设备中对上述文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示。
[0009]第二方面,本公开的一些实施例提供了一种文本序列对齐装置,装置包括:第一生成单元,被配置成根据初始文本信息数量和待比对文本信息数量,生成比对标识对矩阵变
量,其中,上述初始文本信息数量为初始文本信息序列包括的初始文本信息的数量,上述待比对文本信息数量为待比对文本信息序列包括的待比对文本信息的数量;执行单元,被配置成对于上述待比对文本信息序列中的每个待比对文本信息的第一标识号,以及上述初始文本信息序列中的每个初始文本信息的第二标识号,执行以下步骤:确定对应上述待比对文本信息和上述初始文本信息的待比对标识对组;根据上述待比对文本信息序列和上述初始文本信息序列,生成上述待比对标识对组中每个待比对标识对所对应的文本关联系数,得到文本关联系数组;根据上述文本关联系数组,从上述待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对;根据上述第一标识号和上述第二标识号,将上述比对标识对更新至上述比对标识对矩阵变量;第二生成单元,被配置成根据所更新的比对标识对矩阵变量,生成文本对齐信息组,其中,上述文本对齐信息组中的文本对齐信息包括待比对文本信息段和对应上述待比对文本信息段的初始文本信息段;显示单元,被配置成在相关联的显示设备中对上述文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示。
[0010]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
[0011]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
[0012]本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的文本序列对齐方法,提升了文本序列比对结果准确性。具体来说,造成文本序列比对结果准确性较差的原因在于:点对点的对齐方式中一次对齐仅涉及两个点级文本对象,点级文本对象不能代表本地上下文,导致文本序列比对结果准确性较差。基于此,本公开的一些实施例的文本序列对齐方法,首先,根据初始文本信息数量和待比对文本信息数量,生成比对标识对矩阵变量。其中,上述初始文本信息数量为初始文本信息序列包括的初始文本信息的数量,上述待比对文本信息数量为待比对文本信息序列包括的待比对文本信息的数量。由此,比对标识对矩阵变量可以用于存储进行序列对齐的比对标识对。然后,对于上述待比对文本信息序列中的每个待比对文本信息的第一标识号,以及上述初始文本信息序列中的每个初始文本信息的第二标识号,执行以下步骤:第一步,确定对应上述待比对文本信息和上述初始文本信息的待比对标识对组。第二步根据上述待比对文本信息序列和上述初始文本信息序列,生成上述待比对标识对组中每个待比对标识对所对应的文本关联系数,得到文本关联系数组。由此,文本关联系数组可以作为用于确定比对标识对的依据。第三步,根据上述文本关联系数组,从上述待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对。第四步,根据上述第一标识号和上述第二标识号,将上述比对标识对更新至上述比对标识对矩阵变量。由此,可以将确定的比对标识添加至比对标识对矩阵变量中。之后,根据所更新的比对标识对矩阵变量,生成文本对齐信息组,其中,上述文本对齐信息组中的文本对齐信息包括待比对文本信息段和对应上述待比对文本信息段的初始文本信息段。由此,每个文本对齐信息中的待比对文本信息段和对应的初始文本信息段可以以段对段的对齐方式进行比对。最后,在相关联的显示设备中对上述文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示。由此,所显示的待
比对文本信息段和初始文本信息段呈现了对齐的显示效果,可以以段对段的对齐方式进行文本序列比对。也因为段对段的对齐方式中一次对齐至少涉及两个点级文本对象,段级文本对象可以代表本地上下文,提升了文本序列比对结果准确性。
附图说明
[0013]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
[0014]图1是根据本公开的文本序列对齐方法的一些实施例的流程图;...

【技术保护点】

【技术特征摘要】
1.一种文本序列对齐方法,包括:根据初始文本信息数量和待比对文本信息数量,生成比对标识对矩阵变量,其中,所述初始文本信息数量为初始文本信息序列包括的初始文本信息的数量,所述待比对文本信息数量为待比对文本信息序列包括的待比对文本信息的数量;对于所述待比对文本信息序列中的每个待比对文本信息的第一标识号,以及所述初始文本信息序列中的每个初始文本信息的第二标识号,执行以下步骤:确定对应所述待比对文本信息和所述初始文本信息的待比对标识对组;根据所述待比对文本信息序列和所述初始文本信息序列,生成所述待比对标识对组中每个待比对标识对所对应的文本关联系数,得到文本关联系数组;根据所述文本关联系数组,从所述待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对;根据所述第一标识号和所述第二标识号,将所述比对标识对更新至所述比对标识对矩阵变量;根据所更新的比对标识对矩阵变量,生成文本对齐信息组,其中,所述文本对齐信息组中的文本对齐信息包括待比对文本信息段和对应所述待比对文本信息段的初始文本信息段;在相关联的显示设备中对所述文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示。2.根据权利要求1所述的方法,其中,在所述根据初始文本信息数量和待比对文本信息数量,生成比对标识对矩阵变量之前,所述方法还包括:接收待比对文本信息序列;响应于确定所述待比对文本信息序列为空,控制通信连接的声音播放设备播放预设重输提示音。3.根据权利要求3所述的方法,其中,所述根据所述待比对文本信息序列和所述初始文本信息序列,生成所述待比对标识对组中每个待比对标识对所对应的文本关联系数,包括:根据所述待比对文本信息序列和所述初始文本信息序列,生成所述待比对标识对组中每个待比对标识对所对应的文本信息距离作为文本关联系数。4.根据权利要求3所述的方法,其中,所述根据所述文本关联系数组,从所述待比对标识对组中选择满足预设关联系数条件的待比对标识对作为比对标识对,包括:从所述待比对标识对组中选择对应的文本关联系数最小的待比对标识对作为比对标识对。5.根据权利要求1所述的方法,其中,所述在相关联的显示设备中对所述文本对齐信息组中的每个文本对齐信息包括的待比对文本信息段和初始文本信息段进行对齐显示,包括:根据所述文本对齐信息组中的各个文本对齐信息对应的初始文本信息的顺序,对所述文本对齐信息组中的各个文本对齐信息进行排序,得到文本对齐信息序列;对于所述文本对齐信息序列中的文本对齐信息,将所述文本对齐信息包括的待比对文本信息段和初始文本信息段显示在...

【专利技术属性】
技术研发人员:林得苗
申请(专利权)人:北京庖丁科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1