【技术实现步骤摘要】
语句切分方法及装置、存储介质、处理器及终端设备
本专利技术涉及自然语言处理
,具体而言,涉及一种语句切分方法及装置、存储介质、处理器及终端设备。
技术介绍
在相关技术中,机器翻译是指借由计算机程序将文字从一种自然语言翻译成另一种自然语言,当前在进行机器翻译时,往往包括两个步骤:1)先将双语句对的原文和译文根据标点进行切分,各自形成子句;2)将子句进行句对齐,获得互译的双语子句对。但是该种翻译方式存在明显的缺陷,即,1)根据标点切分后,可能会找不到完全互译的子句对;2)无法处理不存在标点,但仍然很长的句子。尤其是对于翻译训练、解码过程中遇到语料句对长度过大的情况,往往无法有效切分处理,因此,当前需要实现翻译过程中长短句的合理切分,尤其是对于过长的训练语料做合适的句对同步切分,使得能被NMT模型利用。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语句切分方法及装置、存储介质、处理器及终端设备,以至少解决相关技术中在进行文字翻译时,无法有效对语句和/ ...
【技术保护点】
1.一种语句切分方法,其特征在于,包括:/n获取训练数据,其中,所述训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;/n通过所述训练数据训练得到语句切分模型;/n采用所述语句切分模型对待切分的语句进行切分。/n
【技术特征摘要】
1.一种语句切分方法,其特征在于,包括:
获取训练数据,其中,所述训练数据是至少基于词对齐关系,通过对初始双语句对进行切分后,形成的待使用双语句对;
通过所述训练数据训练得到语句切分模型;
采用所述语句切分模型对待切分的语句进行切分。
2.根据权利要求1所述的方法,其特征在于,获取所述训练数据包括:
对所述初始双语句对进行词对齐处理,得到包含词对齐结果的双语句对,其中,所述词对齐结果采用词对齐连线表示词对齐关系;
在包含词对齐结果的双语句对确定多个备选的切分点,其中,通过所述多个备选的切分点得到的切分线与所述词对齐连线不相交;
按照预设规则从所述多个备选的切分点中筛选出部分切分点;
通过构建语言模型,从所述部分切分点中确定最终使用的切分点,利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理,得到切分后双语句,并将所述切分后双语句确定为所述训练数据。
3.根据权利要求2所述的方法,其特征在于,所述预设规则包括以下至少之一:
每个切分点的两侧存在至少一个单词;
每个切分点的一侧存在至少一个单词,并且该切分点的另一侧存在标点符号;
每相邻两个切分点之间的词数量大于第一预设阈值。
4.根据权利要求2所述的方法,其特征在于,通过构建语言模型,从所述部分切分点中确定最终使用的切分点,利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理,得到切分后双语句,并将所述切分后双语句确定为所述训练数据包括:
从所述部分切分点中选取属于同一条切分线的第一切分点和第二切分点,其中,所述第一切分点用于对所述初始双语句对中的第一语句进行切分,所述第二切分点用于对所述初始双语句对中的第二语句进行切分;
通过为所述第一语句构建的第一语言模型计算由所述第一切分点分割的上下文单词的第一分数,以及通过为所述第二语句构建的第二语言模型计算由所述第二切分点分割的上下文单词的第二分数;
采用所述第一分数与所述第二分数之和确定所述最终使用的切分点,利用所述最终使用的切分点对所述包含词对齐结果的双语句对进行切分处理,得到所述切分后双语句,并将所述切分后双语句确定为所述训练数据。
5.根据权利要求4...
【专利技术属性】
技术研发人员:陆军,施杨斌,赵宇,骆卫华,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。