【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种基于文生图模型的语义对齐方法、装置、设备及介质。
技术介绍
1、文生图模型(text-to-image models)是一类通过自然语言文本输入生成对应图像的人工智能模型。当前主流模型包括dall-e、stable diffusion、midjourney等,其核心架构通常包含文本编码器和图像生成器两部分:文本编码器(如clip文本分支、bert变体)将文本转化为语义向量,图像生成器(如扩散模型、对抗生成网络)基于语义向量生成图像。这类模型广泛应用于创意设计、内容创作、视觉辅助表达等领域,能根据文本描述生成多样化视觉内容。
2、在医疗健康领域中,文生图模型的文本与图像语义对齐准确性较低问题可能引发实际问题,例如当医生输入“肺部毛玻璃样结节伴血管集束征”等专业描述时,文生图模型因文本语义颗粒度与图像特征的不匹配,可能将“毛玻璃样”错误映射为多种模糊像素组合,生成的结节形态偏离临床真实表现,导致医疗结果不准确。
3、在金融科技业务领域中,当用户输入“低风险稳健型理财产品收益波动趋势
...【技术保护点】
1.一种基于文生图模型的语义对齐方法,其特征在于,包括:
2.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述文本数据训练集中的原始文本内容进行视觉语义增强,得到增强文本内容,包括:
3.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用预设的图文特征联合编码模型中的分词器将所述增强文本内容转换为标记序列,包括:
4.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述标记序列进行索引映射,得到所述图文特征联合编码模型的目标输入标识,包括:
5.如权利要求1所述的
...【技术特征摘要】
1.一种基于文生图模型的语义对齐方法,其特征在于,包括:
2.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述文本数据训练集中的原始文本内容进行视觉语义增强,得到增强文本内容,包括:
3.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用预设的图文特征联合编码模型中的分词器将所述增强文本内容转换为标记序列,包括:
4.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述对所述标记序列进行索引映射,得到所述图文特征联合编码模型的目标输入标识,包括:
5.如权利要求1所述的基于文生图模型的语义对齐方法,其特征在于,所述利用所述图文特征联合编码模型中的文本编码器对所述目标输入标识进行嵌入编码,得到标记级向量矩阵,包括:
6.如权利要求1所述的基于文生图模型的语...
【专利技术属性】
技术研发人员:郑喜民,舒畅,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。