平行语料对齐方法、装置、存储介质及电子设备制造方法及图纸

技术编号:27772243 阅读:29 留言:0更新日期:2021-03-23 12:52
本公开涉及一种平行语料对齐方法、装置、存储介质及电子设备,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,在与所述目标搜索范围对对应的文本中确定目标对,确定目标对在待对齐源文本和待对齐目标文本中的位置序号,基于位置序号重新确定新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空,解决了相关技术中对齐效率较低的问题。

【技术实现步骤摘要】
平行语料对齐方法、装置、存储介质及电子设备
本公开涉及语言处理
,具体地,涉及一种平行语料对齐方法、装置、存储介质及电子设备。
技术介绍
在相关技术中,通过词、短语、句子三种粒度计算词之间、短语之间、句子之间的相似度,进而构建平行句对,虽然此种对齐方式有较高的准确率,但是,在基于词、短语、句子的进行对齐时,因对齐计算量较大,也将导致对齐的效率较低。
技术实现思路
本公开的目的是提供一种平行语料对齐方法、装置、存储介质及电子设备,解决了相关技术中对齐效率较低的问题。为了实现上述目的,第一方面,本公开提供一种平行语料对齐方法,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。可选地,在所述第一子源文本为段落,且所述第二子目标文本为段落的情况下,所述方法还包括:确定每个段落的至少一个关键词;将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串;所述在与所述目标搜索范围对对应的文本中确定目标对包括:将所述目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;将第一相似度值最高的两个段落确定为目标对。可选地,所述确定每个段落的至少一个关键词包括:针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率;针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数;基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。可选地,在所述第一子源文本为句子,且所述第二子目标文本为句子的情况下,所述在所述目标搜索范围对中对应的对象中确定目标对包括:将所述目标搜索范围对中第一搜索范围中对应的所有句子与第二搜索范围中对应的所有句子进行相似度计算,得到多个第二相似度值;将第二相似度值最高的两个句子确定为目标对。可选地,采用以下方式进行相似度计算:提取第一文本和第二文本对应的语义向量;根据所述第一文本和所述第二文本的语义向量,计算所述第一文本与所述第二文本之间的余弦距离,将该余弦距离作为相似度值。可选地,所述方法还包括:获取初始源文本和初始目标文本;分别对所述初始源文本和所述初始目标文本进行预处理,以分别得到与所述初始源文本对应的待对齐源文本,以及与所述初始目标文本对应的待对齐目标文本,其中,所述预处理包括分段处理或分句处理。可选地,所述方法还包括:将每一次确定的所述目标对加入对齐列表中;在所述得到的新的目标搜索范围均为空的情况下,输出所述对齐列表。第二方面,本公开还提供一种平行语料对齐装置,所述装置包括:第一确定模块,用于确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对;第二确定模块,用于在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;第三确定模块,确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;划分模块,用于根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;更新模块,将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对。第三方面,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中的平行语料对齐方法。第四方面,本公开还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中的平行语料对齐方法的步骤。通过上述技术方案,在实现待对齐源文本和待对齐目标文本中包括的文本的对齐时,通过每次确定的目标对中包括的第一子源文本和第二子目标文本在待对齐源文本和待对齐目标文本中的位置序号,对后续文本对齐依据的文本搜索范围进行缩小,以提高对齐效率。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是根据一示例性实施例示出的一种平行语料对齐方法的流程图。图2是根据一示例性实施例示出的一种平行语料对齐方法的另一流程图。图3是根据一示例性实施例示出的一种平行语料对齐装置的结构示意图。图4是根据一示例性实施例示出的一种电子设备的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。本公开提供一种平行语料对齐方法,图1是根据一示例性实施例示出的一种平行语料对齐方法的流程图。如图1所示,包括以下步骤。在步骤S101中,确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将初始化搜索范围对作为目标搜索范围对,其中,目标搜索范围对包括与待对齐源文本对应的第一搜索范围和与待对齐目标文本对应的第二搜索范围。在步骤S102中,在与目标搜索范围对对应的文本中确定目标对。在步骤S103中,确定目标对中包括的第一子源文本在待对齐源文本中的第一位置序号,以及目标对中包括的第二子目标文本在待对齐目标文本中的第二位置序号。在步骤S104中,根据第一位置序号对第一搜索范围进行划分得到新的两个第一搜索范围,根据第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围。在步骤S105中,将得到的两个新的第一搜索范围与两个新的第二搜本文档来自技高网...

【技术保护点】
1.一种平行语料对齐方法,其特征在于,所述方法包括:/n确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;/n在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;/n确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;/n根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;/n将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。/n

【技术特征摘要】
1.一种平行语料对齐方法,其特征在于,所述方法包括:
确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;
在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。


2.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为段落,且所述第二子目标文本为段落的情况下,所述方法还包括:
确定每个段落的至少一个关键词;
将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串;
所述在与所述目标搜索范围对对应的文本中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;
将第一相似度值最高的两个段落确定为目标对。


3.根据权利要求2所述的方法,其特征在于,所述确定每个段落的至少一个关键词包括:
针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率;
针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数;
基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。


4.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为句子,且所述第二子目标文本为句子的情况下,所述在所述目标搜索范围对中对应的对象中确定目标对包括:
将所述目标搜索范围对...

【专利技术属性】
技术研发人员:刘译璟孙伟苏海波周泽彪张文学李崇岭左云鹏高体伟
申请(专利权)人:北京百分点信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1