一种汉藏语多模态的图文处理方法及处理系统技术方案

技术编号:42908258 阅读:66 留言:0更新日期:2024-09-30 15:25
本申请提供了一种汉藏语多模态的图文处理方法及处理系统,通过提取汉藏语图文信息中汉藏语图像模态的图像特征和汉藏语文本模态的文本特征以确定第一汉藏语图文交互特征信息,根据第一汉藏语图文交互特征信息确定第一交互特征量;将汉藏语图像模态的图像切分重组得到汉藏语图像副本,根据汉藏语图像副本的图像副本特征和文本特征确定第二汉藏语图文交互特征信息,根据第二汉藏语图文交互特征信息确定第二交互特征量;基于第一交互特征量和第二交互特征量输出所述汉藏语图文交互的交互结果。上述方案基于第一交互特征量和第二交互特征量输出交互结果,可实现汉藏语图文跨模态交互的语义关联,从而提高汉藏语图文跨模态交互处理结果的真实性。

【技术实现步骤摘要】

本申请涉及图文处理,更具体的说,本申请涉及一种汉藏语多模态的图文处理方法及处理系统


技术介绍

1、图文处理技术在信息时代至关重要,包含了图像处理技术、文本处理技术等,广泛应用于数字出版、广告设计、教育、医疗和娱乐等领域,其核心在于高效采集、处理、分析和展示图像与文本数据,以满足各类应用需求,随着计算机技术、人工智能和大数据技术的快速发展,图文处理技术也在不断革新,其中,图像处理技术涵盖图像的获取、压缩、存储、增强、分析和识别,深度学习也广泛应用于图像处理中,如卷积神经网络(cnn),显著提升了图文识别的准确性和速度,此外,文本处理技术涉及文本的采集、分析、生成和检索,包括字符识别(ocr)、自然语言处理(nlp)和文本挖掘,nlp通过机器学习和深度学习,可以实现语法分析、情感分析和主题识别等任务,另外,多模态融合技术则将图像、文本和音频等多种模态的信息综合处理,提供了全面的信息理解与分析。

2、在现有技术中,图文处理技术的实现原理包括:图像采集、预处理、特征提取、文本采集、光学字符识别、自然语言处理以及多模态数据融合等步骤,其中,通过图像处理本文档来自技高网...

【技术保护点】

1.一种汉藏语多模态的图文处理方法,其特征在于,包括如下步骤:

2.如权利要求1所述的方法,其特征在于,对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息具体包括:

3.如权利要求2所述的方法,其特征在于,确定所述图像特征的交互影响参量具体包括:

4.如权利要求1所述的方法,其特征在于,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量具体包括:

5.如权利要求1所述的方法,其特征在于,根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块具体包括:

...

【技术特征摘要】

1.一种汉藏语多模态的图文处理方法,其特征在于,包括如下步骤:

2.如权利要求1所述的方法,其特征在于,对所述图像特征和所述文本特征进行特征交互,得到第一汉藏语图文交互特征信息具体包括:

3.如权利要求2所述的方法,其特征在于,确定所述图像特征的交互影响参量具体包括:

4.如权利要求1所述的方法,其特征在于,根据所述第一汉藏语图文交互特征信息构建汉藏语图文的第一交互轨迹,进而得到第一交互特征量具体包括:

5.如权利要求1所述的方法,其特征在于,根据预设的多梯度切分尺度对所述汉藏语图像模态的图像进行切分处理,得到多个切分图块具体包括:

6.如权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:莫倩张传文于满泉蔡锦森樊营朱若曦强巴玉珍邢昊
申请(专利权)人:北京网智天元大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1