一种基于文本的三维体素模型生成方法技术

技术编号:30164677 阅读:13 留言:0更新日期:2021-09-25 15:20
本发明专利技术公开的一种基于文本的三维体素模型生成方法,属于从文本到三维体素模型的跨模态生成领域。本发明专利技术通过文本编码器将自然语言处理为计算机能够理解的文本向量;通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力;通过重建模型标签的判别器,指导生成器训练生成更为精致的模型;通过使生成器在不同阶段生成不同分辨率下的三维体素模型,将三维体素模型传递给不同阶段的判别器,并对其结果进行联合训练,使生成器能够应对高分辨率模型生成任务且生成模型更精致;通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力,提升三维体素模型生成结果的精致度和分辨率。本发明专利技术具有适用性广、生成效果好的优点。生成效果好的优点。生成效果好的优点。

【技术实现步骤摘要】
一种基于文本的三维体素模型生成方法


[0001]本专利技术涉及一种基于文本生成彩色三维体素模型的方法,属于从文本到三维体素模型的跨模态生成领域。

技术介绍

[0002]近年来,随着计算机技术的高速发展,计算机图形学及虚拟现实等技术在生产生活中越发普及,三维模型的应用场景大幅增加,人们对于彩色三维模型的制作需求也随之大幅提升,其在生产生活中具有十分大量的应用场景,如3D游戏,家具设计,设计型教育资源可视化等。然而现阶段的三维模型制作工作高度依赖于CAD等模型构建工具及制造者的建模能力,这种能力在社会中并不普及,人们也没有能力对其进行批量生产,这导致了生产三维模型这一工作十分低效。如何利用现有的三维模型数据集,训练出可以自动化建模的三维模型构建工具已经成为了一个重要的研究方向。
[0003]目前的基于文本的三维模型获取方法通常为关键词检索法,但这种检索的方式的缺点也十分明显。其准确度过分的依赖于标签的准确度以及标注方法的准确度上,且数据标注过程中产生的错误会在后续的数据标注中被放大。其次,此方法需要大量的模型数据来支持,并且无法自由的根据需求操作模型且生成结果只能是已存在的模型,在需要有创造性的工作中此方法将表现极差。
[0004]《Text2Shape》是第一篇提出基于文本的三维模型生成解决方案的论文。该文首次在基于文本的三位彩色体素模型生成任务上提出了一种解决方案。此论文首先以联合嵌入的方法对文本描述和彩色三维模型进行训练来获得一种文本编码方案。其作者将此Wasserstein

GAN相结合,实现了从文本中生成彩色的三维模型的目的。此论文是第一个给出将自然语言文本与在颜色、纹理和形状细节上表现出丰富变化的真实三维对象相连接的方法的研究。
[0005]然而此研究目前还处于起步阶段,有着大量的问题需要被解决,其中有两个比较明显。所述两个问题分别为如何生成更加优质的模型以及如何保证模型优质的同时生成更高分辨率下的模型。

技术实现思路

[0006]针对生成的三维体素模型生成不够精致且分辨率较低的问题,本专利技术公开的一种基于文本的三维体素模型生成方法要解决的技术问题是:通过文本编码器将自然语言处理为计算机能够理解的文本向量;通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力;通过重建模型标签的判别器,指导生成器训练生成更为精致的模型;通过使生成器在不同阶段生成不同分辨率下的三维体素模型,将所述三维体素模型传递给不同阶段的判别器,并对其结果进行联合训练,使生成器能够应对高分辨率模型生成任务且生成模型更精致;通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力,提升三维体素模型生成结果的精致度和分辨率。本专利技术具有适用性广、生成效果好
的优点。本专利技术将从文本生成的三维体素模型用于跨模态生成领域中,解决相关工程技术问题。
[0007]所述相关工程技术问题包括多媒体教育资源构建、三维体素模型编辑和计算机教学辅助。
[0008]本专利技术的目的是通过下述技术方案实现的。
[0009]本专利技术公开的一种基于文本的三维体素模型生成方法,通过文本编码器将自然语言处理为计算机能够理解的文本向量;通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力;通过重建模型标签的判别器,指导生成器训练生成更为精致的三维体素模型;通过使生成器在不同阶段生成不同分辨率下的三维体素模型,将所述三维体素模型传递给不同阶段的判别器,并对其结果进行联合训练,使生成器能够应对高分辨率模型生成任务且生成模型更精致;通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力,提升三维体素模型生成结果的精致度和分辨率。本专利技术具有适用性广、生成效果好的优点。本专利技术将从文本生成的三维体素模型用于跨模态生成领域中,解决相关工程技术问题。
[0010]本专利技术公开的一种基于文本的三维体素模型生成方法,包括如下步骤:
[0011]步骤一:将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征,语义编码器由语义编码器架构中预训练得到的文本编码器实现。
[0012]通过引入三元组损失拉近相似文本的特征向量之间的距离,加大不相似文本的特征向量之间的距离,实现从文本中提取文本三维体素模型联合语义特征的训练。评价相似的准则是是否描述同一张三维体素模型,三元组损失的引入迫使文本编码器忽略文本表达形式的差异,从文本中提取出理想的文本三维体素模型联合特征。此编码器架构主要包含三个相同的文本编码器和一个三维体素模型编码器。通过使用{t1,t2,t3}作为文本编码器的输入,其中{t1,t2}是相同三维体素模型对应的不同文本,{t2,t3}是描述不同三维体素模型的两个文本。损失函数被定义为:
[0013]J=d(e1,e2)+max(α

d(e2,e3),0)
[0014]其中d(.)是通过计算两个特征的L2距离得到的,ei是文本ti的特征向量,超参数α被用来限制不相似文本向量之间的最小距离。通过最小化该损失函数,优化整个文本编码器架构。
[0015]当存在此三元组损失并不能充分利用一个批次中的其他数据的问题,在训练过程中,通过引入另一个三元组损失解决此问题。通过将模型调整为两个相同的文本编码器和一个三维体素模型编码器。给定一个真实三维体素模型集S和相对应的文本对集合T,其中一个三维体素模型编码器。给定一个真实三维体素模型集S和相对应的文本对集合T,其中包含两个描述相同三维体素模型的不同文本。文本编码器采用T={T1,T2,...,TM}作为输入,每一个文本都有一个正样本对Tk。对于每个正样本对来说,训练批次中其余文本对中的任意文本与正样本对中的任意文本都互成负样本对。批次中每个文本都有一个正样本,有多个负样本。因此,为每个正样本对计算损失时,不仅需要拉近两个正样本之间的距离,同时需要考虑正样本对中的每一个样本产生的负样本对,通过最小距离阈值α将所述负样本对之间的距离推远。为每个正样本对(t
i
,t
j
)定义如下损失函数:
[0016]J
i,j
=log(∑(i,m)∈N exp(α

d
i,m
)+∑(j,n)∈N exp(α

d
j,n
))+max(δ,d
i,j
)
[0017]其中N代表批次中的除该文本对以外的其余文本集合,超参数α代表不相似文本向量之间距离的最小阈值,d
i,j
=||si

sj||2与d(.)含义相同。
[0018]在训练过程中,三维体素模型编码器会提取公共但无意义的三维体素模型特征,导致所有文本特征都映射到同一三维体素模型特征上。虽然所述满足配对的文本特征和三维体素模型特征相似的条件,但并不能证明文本编码器已得到一个理想的联合嵌入。通过引入一个环状损失函数,通过在当前得到的文本特征映射到配对的三维体素模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本的三维体素模型生成方法,其特征在于:包括如下步骤,步骤一:将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征,语义编码器由语义编码器架构中预训练得到的文本编码器实现;步骤二:通过条件生成对抗网络框架使生成器获得生成匹配文本描述三维体素模型的能力;步骤三:通过重建模型标签的判别器,指导生成器训练生成更为精致的三维体素模型;步骤四:通过使生成器在不同阶段生成不同分辨率下的三维体素模型,将所述三维模型传递给不同阶段的判别器,并对其结果进行联合训练,使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致;步骤五:通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力,提升三维体素模型生成结果的精致度和分辨率。2.如权利要求1所述的一种基于文本的三维体素模型生成方法,其特征在于:还包括步骤六,将从文本生成的三维体素模型用于跨模态生成领域中,解决相关工程技术问题;所述相关工程技术问题包括多媒体教育资源构建、三维体素模型编辑和计算机教学辅助。3.如权利要求1或2所述的一种基于文本的三维体素模型生成方法,其特征在于:步骤一实现方法为,通过引入三元组损失拉近相似文本的特征向量之间的距离,加大不相似文本的特征向量之间的距离,实现从文本中提取文本三维体素模型联合语义特征的训练;评价相似的准则是是否描述同一张三维体素模型,三元组损失的引入迫使文本编码器忽略文本表达形式的差异,从文本中提取出理想的文本三维体素模型联合特征;此编码器架构主要包含三个相同的文本编码器和一个三维体素模型编码器;通过使用{t1,t2,t3}作为文本编码器的输入,其中{t1,t2}是相同三维体素模型对应的不同文本,{t2,t3}是描述不同三维体素模型的两个文本;损失函数被定义为:J=d(e1,e2)+max(α

d(e2,e3),0)其中d(.)是通过计算两个特征的L2距离得到的,ei是文本ti的特征向量,超参数α被用来限制不相似文本向量之间的最小距离;通过最小化该损失函数,优化整个文本编码器架构;当存在此三元组损失并不能充分利用一个批次中的其他数据的问题,在训练过程中,通过引入另一个三元组损失解决此问题;通过将模型调整为两个相同的文本编码器和一个三维体素模型编码器;给定一个真实三维体素模型集S和相对应的文本对集合T,其中三维体素模型编码器;给定一个真实三维体素模型集S和相对应的文本对集合T,其中包含两个描述相同三维体素模型的不同文本;文本编码器采用T={T1,T2,

,TM}作为输入,每一个文本都有一个正样本对Tk;对于每个正样本对来说,训练批次中其余文本对中的任意文本与正样本对中的任意文本都互成负样本对;批次中每个文本都有一个正样本,有多个负样本;因此,为每个正样本对计算损失时,不仅需要拉近两个正样本之间的距离,同时需要考虑正样本对中的每一个样本产生的负样本对,通过最小距离阈值α将所述负样本对之间的距离推远;为每个正样本对(t
i

t
j
)定义如下损失函数:J
i,j
=log(∑(i,m)∈N exp(α

d
i,m
)+∑(j,n)∈N exp(α

d
j,n
))+max(δ,d
i,j
)其中N代表批次中的除该文本对以外的其余文本集合,超参数α代表不相似文本向量之间距离的最小阈值,d
i,j
=||si

sj||2与d(.)含义相同;在训练过程中,三维体素模型编码器会提取公共但无意义的三维体素模型特征,导致所有文本特征都映射到同一三维体素模型特征上;虽然所述满足配对的文本特征和三维体素模型特征相似的条件,但并不能证明文本编码器已得到一个理想的联合嵌入;通过引入一个环状损失函数,通过在当前得到的文本特征映射到配对的三维体素模型特征时,确保三维体素模型特征能够映射回文本特征;通过计算实际环形分布和理想分布之间的交叉熵来实现环形损失,实际环形分布被定义如下:其中φ(.)表示文本编码器,ω(.)表示三维体素模型编码器,文本特征和三维体素模型特征有相同的维度;

代表向量之间的点击操作,Sts表示文本特征和三维体素模型特征之间的相似度,Sts转置得到Sst;环状损失函数被定义为:Lc=H(S
tst
,T)其中H(.)表示两个分布之间的交叉熵函数;此文本编码器的目的是保证提取出文本三维体素模型共享的语义特征,因此描述相同三维体素模型的两个文本对应的特征是相似的;理想情况下,从一个文本特征出发,映射到匹配的三维体素模型特征,再映射回文本特征,映射回相同类的文本特征的概率是相同的;通过同时构建文本编码器和三维体素模型编码器,通过约束同一三维体素模型的不同描述经文本编码器后相似,以及文本编码结果向模型编码结果映射后再反向映射回来与原编码相似的方法,对文本编码器进行约束,获得能够建立文本与三维体素模型关系映射的文本编码器。4.如权利要求3所述的一种基于文本的三维体素模型生成方法,其特征在于:步骤二实现方法为,通过使用条件生成对抗网络,实现生成结果与文本匹配的目的;在生成器上,通过将输入的文本向量与噪声向量相结合,将结合后的向量...

【专利技术属性】
技术研发人员:余月杨越李博闻
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1