【技术实现步骤摘要】
本专利技术属于机器翻译,尤其涉及一种基于大语言模型的适用于机器翻译的句子改写切分方法。
技术介绍
1、一般的机器翻译任务中出现翻译错误的情况多为单句长度较长、句式结构较复杂的文本,即所谓的“长难句”。此类长难句带来的问题在于,在机器翻译模型训练时,受限于训练卡内存的限制,为了保证训练的稳定性,往往采取的方法是对输入输出文本长度进行限制,超出长度限制的训练样本不会出现在模型训练中。这样一来,在实际应用中,对于超出长度限制的输入文本,模型将无法给出正确的翻译结果;但是如果将该超长文本进行手动切分(如在合适位置插入换行符分行处理),模型就可以给出正确的结果。
2、对于此类问题一般在前处理阶段(即输入机翻模型之前)按照前述方法进行自动的文本切分。对于大多数语种,文本切分主要是结合特定语种的标点符号进行处理,在实际应用中,具体实现包括:1.规则类的方法,如使用正则表达式、条件判断等;2.统计类的方法,利用已切分好的有监督语料,围绕标点符号设计统计特征并训练、使用如决策树、支持向量机等统计模型;3.深度学习的方法,利用有监督/半监督/无
...【技术保护点】
1.一种基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,包括以下步骤:
2.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述改写数据集的原始语料有多种来源,包括WebNLG任务数据,网络论坛、百科的编辑记录;一些经初步整理的改写数据集包括整理自WebNLG的WebSplit数据集、整理自维基百科编辑记录的WikiSplit数据集,这两个数据集均为英语单语数据集;若需要将方法扩展至更多语种,可按照对应论文中的数据整理方法进行操作。
3.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法
...【技术特征摘要】
1.一种基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,包括以下步骤:
2.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述改写数据集的原始语料有多种来源,包括webnlg任务数据,网络论坛、百科的编辑记录;一些经初步整理的改写数据集包括整理自webnlg的websplit数据集、整理自维基百科编辑记录的wikisplit数据集,这两个数据集均为英语单语数据集;若需要将方法扩展至更多语种,可按照对应论文中的数据整理方法进行操作。
3.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述微调的数据准备阶段:
4.一种如权利要求1-3任意一项所述基于大语言模型的适用于机器翻译的句子改写切分方法的基于大语言模型的适用于机器翻译的句子改写切分系统,其特征在于,所述基于大语言模型的适用...
【专利技术属性】
技术研发人员:陈文涛,宗浩,贝超,苑聪虎,刘欢,
申请(专利权)人:中译语通科技昆明有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。