一种适用于机器翻译的句子改写切分方法及系统技术方案

技术编号:42101586 阅读:26 留言:0更新日期:2024-07-25 00:27
本发明专利技术属于机器翻译技术领域,公开了一种基于大语言模型的适用于机器翻译的句子改写切分方法,本发明专利技术将文本切分任务转换为改写任务,借助大语言模型包含的丰富的语言学知识进行高质量的文本改写与切分,在保证文本内容完整性的前提下优化了后续机器翻译阶段的输入文本,提高了翻译效率与正确率。相比现有的从句终标点符号出发的方法,本模型从文本改写的角度出发,直接令大模型对输入文本进行改写切分,故其断句位置不仅局限于句终标点的位置,增加了切分的灵活性;通过要求改写切分模型的输出保存原始句子的内容信息,约束了模型的改写力度,保证了原始信息的完整性。对于本就不包含标点符号系统的语种,此类文本改写的切分方式同样适用。

【技术实现步骤摘要】

本专利技术属于机器翻译,尤其涉及一种基于大语言模型的适用于机器翻译的句子改写切分方法。


技术介绍

1、一般的机器翻译任务中出现翻译错误的情况多为单句长度较长、句式结构较复杂的文本,即所谓的“长难句”。此类长难句带来的问题在于,在机器翻译模型训练时,受限于训练卡内存的限制,为了保证训练的稳定性,往往采取的方法是对输入输出文本长度进行限制,超出长度限制的训练样本不会出现在模型训练中。这样一来,在实际应用中,对于超出长度限制的输入文本,模型将无法给出正确的翻译结果;但是如果将该超长文本进行手动切分(如在合适位置插入换行符分行处理),模型就可以给出正确的结果。

2、对于此类问题一般在前处理阶段(即输入机翻模型之前)按照前述方法进行自动的文本切分。对于大多数语种,文本切分主要是结合特定语种的标点符号进行处理,在实际应用中,具体实现包括:1.规则类的方法,如使用正则表达式、条件判断等;2.统计类的方法,利用已切分好的有监督语料,围绕标点符号设计统计特征并训练、使用如决策树、支持向量机等统计模型;3.深度学习的方法,利用有监督/半监督/无监督的语料(已切分/本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,包括以下步骤:

2.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述改写数据集的原始语料有多种来源,包括WebNLG任务数据,网络论坛、百科的编辑记录;一些经初步整理的改写数据集包括整理自WebNLG的WebSplit数据集、整理自维基百科编辑记录的WikiSplit数据集,这两个数据集均为英语单语数据集;若需要将方法扩展至更多语种,可按照对应论文中的数据整理方法进行操作。

3.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述微...

【技术特征摘要】

1.一种基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,包括以下步骤:

2.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述改写数据集的原始语料有多种来源,包括webnlg任务数据,网络论坛、百科的编辑记录;一些经初步整理的改写数据集包括整理自webnlg的websplit数据集、整理自维基百科编辑记录的wikisplit数据集,这两个数据集均为英语单语数据集;若需要将方法扩展至更多语种,可按照对应论文中的数据整理方法进行操作。

3.如权利要求1所述基于大语言模型的适用于机器翻译的句子改写切分方法,其特征在于,所述微调的数据准备阶段:

4.一种如权利要求1-3任意一项所述基于大语言模型的适用于机器翻译的句子改写切分方法的基于大语言模型的适用于机器翻译的句子改写切分系统,其特征在于,所述基于大语言模型的适用...

【专利技术属性】
技术研发人员:陈文涛宗浩贝超苑聪虎刘欢
申请(专利权)人:中译语通科技昆明有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1