文本引导的图像细化方法、装置、设备及介质制造方法及图纸

技术编号：45619059 阅读：8 留言：0更新日期：2025-06-24 18:46

本发明专利技术涉及人工智能技术领域，公开了一种文本引导的图像细化方法，包括：获取包含文本描述和图像数据的训练数据集，标注图像中的特定区域，定义文本触发关键词，并将关键词与特定区域的标注信息建立映射关系；将更新后的训练数据集输入初步生成模型，识别关键词对应的特定区域，并调整生成模型的注意力分配机制，优化模型对特定区域的细节生成效果；基于优化后的生成模型生成包含细化结果的目标图像。本发明专利技术通过在训练阶段引入文本触发关键词并结合显著性区域的标注信息，增强模型对特定区域的识别和优化能力，实现了细化结果在生成过程中直接融入生成器，从而减少后处理步骤，能够有效提升复杂场景中特定区域的生成精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种文本引导的图像细化方法、装置、设备及存储介质。

技术介绍

1、图像生成技术在社会经济的多个领域中得到了广泛应用，特别是在医疗健康和金融领域。然而，现有图像生成技术在处理复杂图像场景时，难以兼顾整体一致性和局部细节的精确性。尤其是在涉及边界细节、纹理特征的区域(如面部、手部、病灶区域等)时，生成结果常出现细节缺失、结构扭曲、区域融合不自然等问题。这些不足限制了图像生成技术在多种实际业务场景中的应用效果。

2、在医疗健康领域，图像生成技术被广泛用于辅助诊断和医疗影像分析。例如，在病灶识别和器官分割任务中，医生通过医学影像识别边界位置和关键纹理特征，以准确判断病变情况。然而，现有技术在生成医疗影像时，常面临病灶区域细节模糊、边界识别不准确、不同患者特征缺乏个性化适配等问题。这些不足可能导致诊断失误或漏诊，严重影响医疗影像分析的准确性和可靠性。

3、在金融领域，图像生成技术已应用于客户服务和身份认证等业务场景，如生成个性化的拟人图像，用于品牌营销和客户互动。然而，现有技术在生成客户拟人...

【技术保护点】

1.一种文本引导的图像细化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的文本引导的图像细化方法，其特征在于，获取包含文本描述和对应图像数据的训练数据集，对所述图像数据中的结构化区域和局部显著特征区域进行标注，生成对应的结构化区域和局部显著特征区域的标注信息，包括：

3.如权利要求2所述的文本引导的图像细化方法，其特征在于，通过显著性检测模型识别所述图像数据中的结构化区域和局部显著特征区域的边界位置和关键点特征之前，还包括：

4.如权利要求1所述的文本引导的图像细化方法，其特征在于，定义文本触发关键词，并将每个文本触发关键词与结构化区域和局部显...

【技术特征摘要】

1.一种文本引导的图像细化方法，其特征在于，包括以下步骤：

4.如权利要求1所述的文本引导的图像细化方法，其特征在于，定义文本触发关键词，并将每个文本触发关键词与结构化区域和局部显著特征区域的标注信息建立映射关系，生成包含所述映射关系的更新训练数据集，包括：

5.如权利要求1所述的文本引导的图像细化方法，其特征在于，将所述更新训练数据集输入初步生成模型，结合文本触发关键词与结构化区域和局部显著特征区域的标注信息，识别所述文本触发关键词对应的结构化区域和局部显著特...

【专利技术属性】
技术研发人员：郑喜民，胡振东，舒畅，陈远旭，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人