基于文生图模型的语义对齐方法、装置、设备及介质制造方法及图纸

技术编号:46414942 阅读:10 留言:0更新日期:2025-09-16 20:03
本发明专利技术涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种基于文生图模型的语义对齐方法、装置、设备及介质,包括:获取文本训练集,对文本进行语义增强,得到增强文本内容,提取增强文本内容对应的全局语义特征向量;利用分词器将增强文本内容转换为标记序列;对标记序列进行索引映射,得到目标输入标识,并生成对应的注意力掩码;利用编码器对目标输入标识进行编码,得到标记级向量矩阵;根据注意力掩码对标记级向量矩阵进行自注意力处理,得到细粒度语义特征向量;根据细粒度语义特征向量和全局语义特征向量生成指导信息,利用指导信息得到对齐语义。本发明专利技术可以提升文生图模型中文本与图像语义对齐的准确性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于文生图模型的语义对齐方法、装置、设备及介质


技术介绍

1、文生图模型(text-to-image models)是一类通过自然语言文本输入生成对应图像的人工智能模型。当前主流模型包括dall-e、stable diffusion、midjourney等,其核心架构通常包含文本编码器和图像生成器两部分:文本编码器(如clip文本分支、bert变体)将文本转化为语义向量,图像生成器(如扩散模型、对抗生成网络)基于语义向量生成图像。这类模型广泛应用于创意设计、内容创作、视觉辅助表达等领域,能根据文本描述生成多样化视觉内容。

2、在医疗健康领域中,文生图模型的文本与图像语义对齐准确性较低问题可能引发实际问题,例如当医生输入“肺部毛玻璃样结节伴血管集束征”等专业描述时,文生图模型因文本语义颗粒度与图像特征的不匹配,可能将“毛玻璃样”错误映射为多种模糊像素组合,生成的结节形态偏离临床真实表现,导致医疗结果不准确。

3、在金融科技业务领域中,当用户输入“低风险稳健型理财产品收益波动趋势图”时,传统文生图模本文档来自技高网...

【技术保护点】

1.一种基于文生图模型的语义对齐方法,其特征在于,包括:

2.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述文本数据训练集中的原始文本内容进行视觉语义增强,得到增强文本内容,包括:

3.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用预设的图文特征联合编码模型中的分词器将所述增强文本内容转换为标记序列,包括:

4.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述标记序列进行索引映射,得到所述图文特征联合编码模型的目标输入标识,包括:

5.如权利要求1所述的基于文生图模型的语义...

【技术特征摘要】

1.一种基于文生图模型的语义对齐方法,其特征在于,包括:

2.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述文本数据训练集中的原始文本内容进行视觉语义增强,得到增强文本内容,包括:

3.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用预设的图文特征联合编码模型中的分词器将所述增强文本内容转换为标记序列,包括:

4.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述标记序列进行索引映射,得到所述图文特征联合编码模型的目标输入标识,包括:

5.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用所述图文特征联合编码模型中的文本编码器对所述目标输入标识进行嵌入编码,得到标记级向量矩阵,包括:

6.如权利要求1所述的基于文生图模型的语...

【专利技术属性】
技术研发人员:郑喜民舒畅陈远旭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1