System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多语言编码模型的句子对齐方法和系统技术方案_技高网

一种基于多语言编码模型的句子对齐方法和系统技术方案

技术编号:41123495 阅读:3 留言:0更新日期:2024-04-30 17:50
一种基于多语言编码模型的句子对齐方法,包括:对原文文本和译文文本进行分句处理;按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列;第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列;将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵;计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵;基于相似度得分矩阵,得到原文文本和译文文本最终的对齐结果。本发明专利技术句子重构步骤,使得在噪声较多的双语平行语料上进行句子对齐,能得到更准确的对齐结果。

【技术实现步骤摘要】

本专利技术涉及的深度学习领域,特别涉及一种基于多语言编码模型的句子对齐方法和系统


技术介绍

1、平行语料库是多语言处理任务的重要资源,是实现机器翻译、跨语言信息检索、构建双语词典的基础。双语对齐任务是指从不同语言的文档中抽取出互为译文的平行句对,旨在减少人工成本的同时,进一步提高平行语料的数据质量,为后续的自然语言任务提供支撑。

2、现有技术中,大多数句子对齐方法都基于翻译模型,首先对原文、译文分句,通过翻译模型将原文句子和译文句子翻译成同一种语言文本,然后计算原文句子和译文句子间的相似度,并使用动态规划算法找到一个得分最高的句子对齐序列。这种方法泛用性差、成本高,对齐不同的双语平行语料需要不同的翻译模型。此外,当平行语料存在m对n的句对关系时,这种方法会出现累计误差问题,使得最终的对齐结果较差。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于多语言编码模型的句子对齐方法和系统。

2、为了解决上述技术问题,本申请实施例公开了如下技术方案:

3、一种基于多语言编码模型的句子对齐方法,包括:

4、s100.对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列;

5、s200.分别遍历原文句子序列和译文句子序列,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列;

6、s300.对得到的句子重构之后的原文句子序列和对应的译文句子序列,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列;

7、s400.基于预训练模型labse,将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵;

8、s500.基于得到原文向量矩阵和译文向量矩阵,计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵;

9、s600.基于相似度得分矩阵,获取一条从左上到右下的对齐路径,使得相似度得分之和最大,得到原文文本和译文文本最终的对齐结果。

10、进一步地,s100中,对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列,分句公式如公式1和2:

11、s=[s1,s2,...,sm] (1)

12、t=[t1,t2...,tn](2)

13、其中s表示原文句子序列,t表示译文句子序列,si表示原文文本中的第i个句子,ti表示译文文本中的第i个句子。

14、进一步地,s200中,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列,具体方法包括:分别遍历原文句子序列和译文句子序列,当遍历到的任意句子li时,初始化一个窗口并设置大小2,采用公式3将窗口下的连续句子li,li+1合并为一个新的句,然后增加窗口大小并继续合并句子,直至窗口大小达到预设值m,最后采用公式4个5分别得到句子重组之后的原文句子序列s*和译文句子序列t*,其中,公式3、4和5具体公式包括:

15、

16、

17、

18、其中concat方法表示字符串合并,s*和t*分别表示重构后的原文句子序列和译文句子序列,和分别表示重构后的第i个原文句子和译文句子。

19、进一步地,s300中,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列,第二预设规则包括:首先对原文句子序列s*和对应的译文句子序列t*中的句子进行移除不可打印字符、移除特殊字符、符号转为半角文本预处理操作,然后使用sentencepiece算法对句子li进行分词得到lwi,最后将原文句子序列和译文句子序列转换为对应的词序列sw*和tw*。

20、进一步地,使用sentencepiece算法对句子li进行分词得到lwi、原文句子序列和译文句子序列转换为对应的词序列sw*和tw*的公式如公式6、7和8:

21、lwi=split(li)(6)

22、

23、

24、其中split表示sentencepiece分词算法,sw*和tw*分别表示分词后的原文句子序列和译文句子序列,和分别表示分词后的第i个原文句子和译文句子的词序列。

25、进一步地,s400中,将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵,第三预设规则包括:先将词序列转换为对应的词索引序列,然后使用labse中的嵌入层,将词索引序列转换为对应的词向量序列,最后使用labse中的编码层对词向量序列编码,提取句子的语义特征,得到每个句子的向量表示,具体公式如公式9,得到的原文向量矩阵和译文向量矩阵如公式10和11:

26、lvi=encoding(embedding(lwi))(9)

27、

28、

29、其中,embedding和encoding分别表示laser的嵌入层和编码层,sv*和tv*分别表示编码后的原文句子序列和译文句子序列,和分别表示分词后的第i个原文句子和译文句子的句子向量。

30、进一步地,s500中,基于得到原文向量矩阵和译文向量矩阵,采用公式12计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵,相似度得分矩阵为公式13:

31、

32、

33、其中,simi,j表示原文第i个句子和译文第j个句子的相似度,score表示m个原句子与n个译文句子的相似度矩阵。

34、进一步地,s600中,基于相似度得分矩阵,采用公式14获取一条从左上到右下的对齐路径,使得相似度得分之和最大,得到原文文本和译文文本最终的对齐结果,公式14包括:

35、

36、其中,pathi,j表示对齐到第i个原文句子和第j个译文句子的最佳路径。

37、本专利技术还公开了一种基于多语言编码模型的句子对齐系统,包括:分句处理单元、句子重构单元、分词处理单元、编码处理单元、相似矩阵计算单元和对齐结果获取单元;其中:

38、分句处理单元,用于对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列;

39、句子重构单元,用于分别遍历原文句子序列和译文句子序列,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列;

40、分词处理单元,用于对得到的句子重构之后的原文句子序列和对应的译文句子序列,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列;

41、编码处理单元,用于基于预训练模型labse,将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵本文档来自技高网...

【技术保护点】

1.一种基于多语言编码模型的句子对齐方法,其特征在于,包括:

2.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S100中,对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列,分句公式如公式1和2:

3.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S200中,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列,具体方法包括:分别遍历原文句子序列和译文句子序列,当遍历到的任意句子li时,初始化一个窗口并设置大小2,采用公式3将窗口下的连续句子li,li+1合并为一个新的句,然后增加窗口大小并继续合并句子,直至窗口大小达到预设值M,最后采用公式4个5分别得到句子重组之后的原文句子序列S*和译文句子序列T*,其中,公式3、4和5具体公式包括:

4.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S300中,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列,第二预设规则包括:首先对原文句子序列S*和对应的译文句子序列T*中的句子进行移除不可打印字符、移除特殊字符、符号转为半角文本预处理操作,然后使用sentencepiece算法对句子li进行分词得到lwi,最后将原文句子序列和译文句子序列转换为对应的词序列SW*和TW*。

5.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,使用sentencepiece算法对句子li进行分词得到lwi、原文句子序列和译文句子序列转换为对应的词序列SW*和TW*的公式如公式6、7和8:

6.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S400中,将得到的词序列按第三预设规则进行句子编码处理,得到原文向量矩阵和译文向量矩阵,第三预设规则包括:先将词序列转换为对应的词索引序列,然后使用LABSE中的嵌入层,将词索引序列转换为对应的词向量序列,最后使用LABSE中的编码层对词向量序列编码,提取句子的语义特征,得到每个句子的向量表示,具体公式如公式9,得到的原文向量矩阵和译文向量矩阵如公式10和11:

7.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S500中,基于得到原文向量矩阵和译文向量矩阵,采用公式12计算所有原文句子向量和译文句子向量间的余弦相似度,得到一个相似度得分矩阵,相似度得分矩阵为公式13:

8.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,S600中,基于相似度得分矩阵,采用公式14获取一条从左上到右下的对齐路径,使得相似度得分之和最大,得到原文文本和译文文本最终的对齐结果,公式14包括:

9.一种基于多语言编码模型的句子对齐系统,其特征在于,包括:分句处理单元、句子重构单元、分词处理单元、编码处理单元、相似矩阵计算单元和对齐结果获取单元;其中:

10.一种电子设备,其特征在于,包括:

...

【技术特征摘要】

1.一种基于多语言编码模型的句子对齐方法,其特征在于,包括:

2.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,s100中,对原文文本和译文文本进行分句处理,将原文文本和译文文本转换为对应的原文句子序列和对应的译文句子序列,分句公式如公式1和2:

3.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,s200中,按第一预设规则进行对句子进行重构,得到句子重构之后的原文句子序列和译文句子序列,具体方法包括:分别遍历原文句子序列和译文句子序列,当遍历到的任意句子li时,初始化一个窗口并设置大小2,采用公式3将窗口下的连续句子li,li+1合并为一个新的句,然后增加窗口大小并继续合并句子,直至窗口大小达到预设值m,最后采用公式4个5分别得到句子重组之后的原文句子序列s*和译文句子序列t*,其中,公式3、4和5具体公式包括:

4.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其特征在于,s300中,按第二预设规则进行文本分词预处理,将原文句子序列和译文句子序列转换为对应的词序列,第二预设规则包括:首先对原文句子序列s*和对应的译文句子序列t*中的句子进行移除不可打印字符、移除特殊字符、符号转为半角文本预处理操作,然后使用sentencepiece算法对句子li进行分词得到lwi,最后将原文句子序列和译文句子序列转换为对应的词序列sw*和tw*。

5.如权利要求1所述的一种基于多语言编码模型的句子对齐方法,其...

【专利技术属性】
技术研发人员:周玉邓彪田学志
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1