【技术实现步骤摘要】
一种语料筛选方法和装置
[0001]本专利技术涉及语音处理
,特别是涉及一种语料筛选方法和装置。
技术介绍
[0002]机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译为达到较好的效果,需要使用大量的语料,当语料来源于网络时,语料的质量时常得不到保障,在单语料或者平行语料中,存在一定比例的包含单个token(词单元,包括字、词、符号)重复出现遇到一个token连续重复出现的现象,严重影响机器翻译的体验。因此,针对上述情况,从语料开始优化,从而改善翻译效果非常有必要。
技术实现思路
[0003]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语料筛选方法、以及相应的一种语料筛选装置。
[0004]为了解决上述问题,一方面,本专利技术实施例公开了一种语料筛选方法,包括:
[0005]获取原始语料数据;
[0006]对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据 ...
【技术保护点】
【技术特征摘要】
1.一种语料筛选方法,其特征在于,包括:获取原始语料数据;对所述原始语料数据进行数据清洗,得到候选语料数据,所述候选语料数据包含多个语句,对多个所述语句进行分词,得到若干个词单元;根据所述若干个词单元,确定词单元列表和词单元集合,所述词单元集合为去除所述词单元列表中重复的词单元后的集合;计算所述语句对应的词单元列表长度和词单元集合长度,所述词单元列表长度为所述语句中所述词单元的个数,所述词单元集合长度为去除所述词单元列表中重复的词单元后的所述词单元的个数;计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件;过滤不符合预设条件的语句,将符合预设条件的语句加入语料训练数据库。2.根据权利要求1所述的方法,其特征在于,所述候选语料数据包括单语料语句,所述计算所述语句的词单元列表长度和词单元集合长度,包括:计算所述单语料语句的第一词单元列表长度和第一词单元集合长度,所述第一词单元列表长度为所述单语料语句中所述词单元的个数,所述第一词单元集合长度为去除所述第一词单元列表中重复的词单元后的所述第一词单元的个数。3.根据权利要求2所述的方法,其特征在于,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:计算所述单语料语句的第一分词长度比例,所述第一分词长度比例为所述第一词单元列表长度与所述第一词单元集合长度的比值;判断所述第一分词长度比例是否小于预设第一阈值。4.根据权利要求1所述的方法,其特征在于,所述候选语料数据包括平行语料语句,所述平行语料语句包括源语言语句和目标语言语句,所述计算所述语句对应的词单元列表长度和词单元集合长度,包括:计算所述源语言语句的第二词单元列表长度和第二词单元集合长度,所述第二词单元列表长度为所述源语言语句中所述词单元的个数,所述第二词单元集合长度为去除所述第二词单元列表中重复的词单元后的所述第二词单元的个数;计算所述目标语言语句的第三词单元列表长度和第三词单元集合长度,所述第三词单元列表长度为所述目标语言语句中所述词单元的个数,所述第三词单元集合长度为去除所述第三词单元列表中重复的词单元后的所述第三词单元的个数。5.根据权利要求4所述的方法,其特征在于,所述计算所述语句对应的所述词单元列表长度和所述词单元集合长度的比例,判断所述语句是否符合预设条件包括:计算所述源语言语句的第二分词长度比例,所述第二分词长度比例为所述第二词单元列表长度与所述第二词单元集合长度的比值;计算所述目标语言语句的...
【专利技术属性】
技术研发人员:刘绍孔,李健,武卫东,陈明,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。