句子级双语对齐方法及系统技术方案

技术编号:21004207 阅读:66 留言:0更新日期:2019-04-30 21:33
本发明专利技术公开了一种句子级双语对齐方法及系统,该方法包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表;步骤S2:计算该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的文本相似度;步骤S3:根据该第一语句列表中的语句在该一个文本中的对应语句的位置与该第二语句列表中的语句在该另一个文本中的对应语句的位置对该文本相似度进行修正,得到该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度;步骤S4:根据该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度得到该两文本的语句对齐结果。本发明专利技术有利于提高语句对齐效率。

Bilingual Alignment Method and System at Sentence Level

【技术实现步骤摘要】
句子级双语对齐方法及系统
本专利技术涉及自然语言处理
,特别是一种句子级双语对齐方法及系统。
技术介绍
平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料,平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可分为词级、句级、段级和篇级几种,其中,句级的平行语料是最常用的语料库,因此,常常会将将段级、篇级的平行语料转换成句级的平行语料,但是在语料库中,原文与译文并不一定是一一对应的,因此通常需要采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子,这种方式需要耗费大量的人力和时间,从而不利于语句对齐效率的提高。
技术实现思路
有鉴于此,本专利技术的目的之一在于提供一种句子级双语对齐方法及系统,有利于提高语句对齐效率。为达到上述目的,本专利技术的技术方案提供了一种句子级双语对齐方法,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。进一步地,所述步骤S1包括:对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。进一步地,所述步骤S3包括:建立文本相似度矩阵B:其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。进一步地,所述步骤S4包括:采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;根据语句匹配度之和得到所述两文本的语句对齐结果。为实现上述目的,本专利技术的技术方案还提供了一种句子级双语对齐系统,包括:第一处理模块,用于对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;计算模块,用于计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;第二处理模块,用于根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;第三处理模块,用于根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。进一步地,所述第一处理模块包括:第一处理单元,用于对所述一个文本进行断句处理,得到所述第一语句列表;第二处理单元,用于对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。进一步地,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,所述计算模块被配置为采用以下方式计算两个语句的文本相似度K;其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。进一步地,所述第二处理模块包括:矩阵构建单元,用于建立文本相似度矩阵B:其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;获取单元,用于获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;卷积单元,用于采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。进一步地,所述第三处理模块包括:第三处理单元,用于采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;第四处理单元,用于根据语句匹配度之和得到所述两文本的语句对齐结果。本专利技术提供的句子级双语对齐方法,利用语句的文本相似性以及语句在文本中的位置进行语句对齐,不但可以减少人工参与,实现语句自动对齐,还可以提高对齐的准确率,有利于提高文本间语句对齐的效率。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术实施例提供的一种句子级双语对齐方法的流程图;图2是本专利技术实施例提供的一种卷积核的示意图;图3是本专利技术实施例提供中的语句文本相似度矩阵的部分示意图;图4是本专利技术实施例提供中的语句匹配度矩阵的部分示意图;图5是本专利技术实施例提供的一种句子级双语对齐系统的示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重本文档来自技高网...

【技术保护点】
1.一种句子级双语对齐方法,其特征在于,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。

【技术特征摘要】
1.一种句子级双语对齐方法,其特征在于,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。2.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S1包括:对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。3.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。4.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S3包括:建立文本相似度矩阵B:其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。5.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S4包括:采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;根据语句匹配度之和得到所述两文本的语句对齐结果。6.一种句子级双语对齐系统,其特征在于,包括:第一处理模块,用于对待对齐的两文本...

【专利技术属性】
技术研发人员:聂镭李睿聂颖郑权张峰
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1