一种多模态翻译方法及系统技术方案

技术编号：46092701 阅读：8 留言：0更新日期：2025-08-12 18:11

本发明专利技术提供一种多模态翻译方法及系统，用于自然语言处理领域，该方法包括：获取用户输入的图像，通过ResNet模型提取图像特征，并将图像特征输入LSTM模型，通过LSTM模型生成图像字幕；获取用户输入的长文本，通过GPT模型处理长文本的上下文，提取长文本摘要信息，所述长文本为字符数量超过预设值的文本；将图像字幕和长文本摘要信息输入Seq2Seq模型，输出翻译后的目标语言文本；通过分类模型判断长文本风格，根据长文本风格对所述GPT模型进行微调，基于微调后的GPT模型对目标语言文本进行风格优化。该方案不仅可以有效提高多模态数据翻译效率，而且能够保障翻译结果的准确性，并适应不同文化背景的翻译需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，尤其涉及一种多模态翻译方法及系统。

技术介绍

1、在全球化的背景下，文化内容的跨国界传播变得日益重要。随着互联网技术的发展，尤其是社交媒体的普及，越来越多的文化内容需要跨越语言、文化的障碍，实现全球范围内的传播和交流。然而，不同语言和文化之间的差异性给内容的传播带来了挑战。

2、针对多模态数据翻译，当前分别采用对应的模型进行处理，如图像通常采用卷积神经网络（cnn）和循环神经网络（rnn）的结合来生成字幕，长文本摘要提取则采用统计方法或浅层神经网络，而翻译模块则采用基于规则的机器翻译或统计机器翻译等方式，这类多模态翻译方法，不仅翻译效率低，而且针对个性化文本适应性差。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种多模态翻译方法及系统，用于解决当前多模态文本翻译效率低、个性化文本适应性差的问题。

2、在本专利技术实施例的第一方面，提供了一种多模态翻译方法，包括：

3、获取用户输入的图像，通过resnet模型提取图像特征...

【技术保护点】

1.一种多模态翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过ResNet模型提取图像特征包括：

3.根据权利要求1所述的方法，其特征在于，所述通过LSTM模型生成图像字幕还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过GPT模型处理长文本的上下文，并提取长文本摘要信息包括：

5.根据权利要求1所述的方法，其特征在于，所述将图像字幕和长文本摘要信息输入Seq2Seq模型，输出翻译后的目标语言文本包括：

6.根据权利要求1所述的方法，其特征在于，所述将图像字幕和长文本摘要信息输入Seq2...

【技术特征摘要】

1.一种多模态翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过resnet模型提取图像特征包括：

3.根据权利要求1所述的方法，其特征在于，所述通过lstm模型生成图像字幕还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过gpt模型处理长文本的上下文，并提取长文本摘要信息包括：

5.根据权利要求1所述的方法，其特征在于，所述将图像字幕和长文本摘要信息输入seq2seq模型，输出翻译后的目标语言文本包括：

6.根据权利要求1所述的方法，其特征在于，所述将图像字幕和长文本摘要信息输入seq...

【专利技术属性】
技术研发人员：谭慧婷，张志，朱栎芝，陈名龄，孙奕灵，刘俐利，
申请(专利权)人：中南财经政法大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人