【技术实现步骤摘要】
句子级双语对齐方法及系统
本专利技术涉及自然语言处理
,特别是一种句子级双语对齐方法及系统。
技术介绍
平行语料库对于基于自然语言处理的翻译算法来说是较为重要的资料,平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可分为词级、句级、段级和篇级几种,其中,句级的平行语料是最常用的语料库,因此,常常会将将段级、篇级的平行语料转换成句级的平行语料,但是在语料库中,原文与译文并不一定是一一对应的,因此通常需要采用人工方式将段落和篇章的语料库拆分组合成一一对应的句子,这种方式需要耗费大量的人力和时间,从而不利于语句对齐效率的提高。
技术实现思路
有鉴于此,本专利技术的目的之一在于提供一种句子级双语对齐方法及系统,有利于提高语句对齐效率。为达到上述目的,本专利技术的技术方案提供了一种句子级双语对齐方法,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二 ...
【技术保护点】
1.一种句子级双语对齐方法,其特征在于,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。
【技术特征摘要】
1.一种句子级双语对齐方法,其特征在于,包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表,其中,所述第一语句列表的语句由所述两文本中的一个文本的语句得到,所述第二语句列表的语句由所述两文本中的另一个文本的语句得到,且所述第一语句列表中的语句与所述第二语句列表中的语句语言相同;步骤S2:计算所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的文本相似度;步骤S3:根据所述第一语句列表中的语句在所述一个文本中的对应语句的位置与所述第二语句列表中的语句在所述另一个文本中的对应语句的位置对所述文本相似度进行修正,得到所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度;步骤S4:根据所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度得到所述两文本的语句对齐结果。2.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S1包括:对所述一个文本进行断句处理,得到所述第一语句列表,对所述另一个文本进行断句处理后将得到的语句翻译为与所述一个文本语言相同的语句,从而得到所述第二语句列表。3.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述第一语句列表中的语句与所述第二语句列表中的语句均为英文,在所述步骤S2中,采用以下方式计算两个语句的文本相似度K;其中,L为所述两个语句中词语数量最多的语句的词语数量,Ni为所述两个语句中词语数量最多的语句中第i个词语的取值,若所述两个语句中另一语句包含与第i个词语相同词根的词语,则Ni的取值为1,否则为0。4.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S3包括:建立文本相似度矩阵B:其中,n为所述第一语句列表中的语句数量,m为所述第二语句列表中的语句数量,矩阵B中的元素Kij为第一语句列表中的第i个语句与第二语句列表中的第j个语句的文本相似度,且所述第一语句列表的语句位置顺序对应所述一个文本中的语句位置顺序,所述第二语句列表的语句位置顺序对应所述另一个文本中的语句位置顺序;获取卷积核,所述卷积核中行值与列值相同位置处的元素的值大于其他位置处的元素的值;采用所述卷积核对所述文本相似度矩阵进行卷积,得到语句匹配度矩阵,所述语句匹配度矩阵包括所述第一语句列表中的每一个语句与所述第二语句列表中的每一个语句的语句匹配度。5.根据权利要求1所述的句子级双语对齐方法,其特征在于,所述步骤S4包括:采用动态规划方式计算所述第一语句列表与所述第二语句列表在不同语句对齐情况下的语句匹配度之和;根据语句匹配度之和得到所述两文本的语句对齐结果。6.一种句子级双语对齐系统,其特征在于,包括:第一处理模块,用于对待对齐的两文本...
【专利技术属性】
技术研发人员:聂镭,李睿,聂颖,郑权,张峰,
申请(专利权)人:龙马智芯珠海横琴科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。