【技术实现步骤摘要】
本申请涉及人工智能,特别是涉及一种语料数据的序号识别处理方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、随着人工智能技术的发展,以及对各类翻译程序、网站或系统的翻译效率和准确性的要求日益提升,出现了基于深度神经网络模型进行训练,获得机器翻译模型,并将机器翻译模型应用于翻译程序的方式。在模型训练过程中,为保证训练得到的机器翻译模型的模型精度、以及翻译结果准确度,需要大量的训练语料数据,且对训练语料数据的质量要求较高。
2、然而,传统的模型训练过程中,大部分的训练语料数据通常是通过网络爬虫工具进行获取的,即通过网络爬虫工具从现有的网站以及应用程序等,进行已有信息的爬取,以获得训练语料数据,仍存在较多无效数据或翻译错误的情况。因此,传统上利用存在较多错误数据的训练语料数据训练得到的翻译模型,仍然存在翻译结果准确度低下的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升翻译结果准确度的语料数据的序号识别处理方法、装置、计算机设备、计算机可读存储
...【技术保护点】
1.一种语料数据的序号识别处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于所述待识别平行语料数据进行一级序号识别处理,获得所述待识别平行语料数据在双端的序号分布属性,包括:
3.根据权利要求2所述的方法,其特征在于,所述若所述待识别平行语料数据在双端的序号分布属性满足二级序号识别处理条件,基于所述待识别平行语料数据进行二级序号识别处理,获得二级序号识别结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述匹配处理包括字段匹配处理;基于所述二级序号识别结果,对所述待识别平行语料数据进行匹配处理
...【技术特征摘要】
1.一种语料数据的序号识别处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于所述待识别平行语料数据进行一级序号识别处理,获得所述待识别平行语料数据在双端的序号分布属性,包括:
3.根据权利要求2所述的方法,其特征在于,所述若所述待识别平行语料数据在双端的序号分布属性满足二级序号识别处理条件,基于所述待识别平行语料数据进行二级序号识别处理,获得二级序号识别结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述匹配处理包括字段匹配处理;基于所述二级序号识别结果,对所述待识别平行语料数据进行匹配处理和数据筛选,获得目标语料数据,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述待识别平行语料数据在双端的序号分布属性、以及二级序号识别结果,确定出满足三级序号识别处理条件的第一目标语料数据端,并基于所述第一目标语料数据端进行三级序号识别处理,获得三级序号识别结果...
【专利技术属性】
技术研发人员:刘宜进,孟凡东,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。