【技术实现步骤摘要】
平行语料对齐方法、装置、存储介质及电子设备
本公开涉及语言处理
,具体地,涉及一种平行语料对齐方法、装置、存储介质及电子设备。
技术介绍
在相关技术中,通过词、短语、句子三种粒度计算词之间、短语之间、句子之间的相似度,进而构建平行句对,虽然此种对齐方式有较高的准确率,但是,在基于词、短语、句子的进行对齐时,因对齐计算量较大,也将导致对齐的效率较低。
技术实现思路
本公开的目的是提供一种平行语料对齐方法、装置、存储介质及电子设备,解决了相关技术中对齐效率较低的问题。为了实现上述目的,第一方面,本公开提供一种平行语料对齐方法,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;将得到的两个新的第一搜索范围与两个新的第二搜索范围 ...
【技术保护点】
1.一种平行语料对齐方法,其特征在于,所述方法包括:/n确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;/n在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;/n确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;/n根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;/n将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。/n
【技术特征摘要】
1.一种平行语料对齐方法,其特征在于,所述方法包括:
确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,其中,所述待对齐源文本包括多个第一子源文本,所述待对齐目标文本包括多个第二子目标文本,所述目标搜索范围对包括与所述待对齐源文本对应的第一搜索范围和与所述待对齐目标文本对应的第二搜索范围;
在与所述目标搜索范围对对应的文本中确定目标对,其中,所述目标对包括相似度值最高的第一子源文本和第二子目标文本;
确定所述目标对中包括的第一子源文本在所述待对齐源文本中的第一位置序号,以及所述目标对中包括的第二子目标文本在所述待对齐目标文本中的第二位置序号;
根据所述第一位置序号对第一搜索范围进行划分得到两个新的第一搜索范围,根据所述第二位置序号对第二搜索范围进行划分得到两个新的第二搜索范围;
将得到的两个新的第一搜索范围与两个新的第二搜索范围进行组合,以分别得到两个新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空。
2.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为段落,且所述第二子目标文本为段落的情况下,所述方法还包括:
确定每个段落的至少一个关键词;
将每个段落对应的至少一个关键词进行拼接,得到该段落对应的字符串;
所述在与所述目标搜索范围对对应的文本中确定目标对包括:
将所述目标搜索范围对中第一搜索范围中对应的所有段落的字符串与第二搜索范围中对应的所有段落的字符串进行相似度计算,得到多个第一相似度值;
将第一相似度值最高的两个段落确定为目标对。
3.根据权利要求2所述的方法,其特征在于,所述确定每个段落的至少一个关键词包括:
针对每个段落中的每个词汇,计算该词汇在该段落中的出现频率和逆段落频率;
针对每个段落中的每个词汇,根据该段落中该词汇的出现频率和逆段落频率,确定该词汇的重要性分数;
基于每个段落中每个词汇的重要性分数,确定该段落中的至少一个关键词。
4.根据权利要求1所述的方法,其特征在于,在所述第一子源文本为句子,且所述第二子目标文本为句子的情况下,所述在所述目标搜索范围对中对应的对象中确定目标对包括:
将所述目标搜索范围对...
【专利技术属性】
技术研发人员:刘译璟,孙伟,苏海波,周泽彪,张文学,李崇岭,左云鹏,高体伟,
申请(专利权)人:北京百分点信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。