一种基于AIGC技术的平面设计展示方法技术

技术编号：41287299 阅读：3 留言：0更新日期：2024-05-11 09:35

本发明专利技术涉及AIGC技术领域，尤其为一种基于AIGC技术的平面设计展示方法，其方法包括如下步骤：输入对象特征、输入外观特征，输入动态特征，利用编码器对对象特征进行解析，利用解码器对结果进行输出，接着利用一个编码器对外观特征和动态特征进行解析，将两者的解析结果进行融合，并利用解码器对结果进行输出。本发明专利技术具备智能化的优点，在实际的使用过程中，较大程度上提升了展示效果和用户体验，与传统的展示方式相比，本发明专利技术能够根据操作者的要求和描述，实时生成内容，而不仅仅是简单地播放已经制作好的视频，这意味着展示装置不再局限于预先准备好的内容，而能够根据操作者的实际需求进行自动化的内容生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及aigc，具体为一种基于aigc技术的平面设计展示方法。

技术介绍

1、artificial intelligence generated contentaigc技术是指利用人工智能算法和技术来生成各种形式的内容，如文章、音乐、图像、视频等，这种技术是利用人工智能模型对大量数据进行训练，然后模型可以根据输入的条件和要求生成新的内容。

2、传统的展示方式一般是将预先制作好的视频拷贝到平台上进行展示，在很大程度上依赖于人工操作，这种传统的展示方式主要存在以下问题：

3、一、由于传统的展示方式主要依赖于预先制作好的视频进行播放，因此展示装置无法基于实时图像或操作者的描述进行内容生成，这种方式智能化程度低，也不能满足不同用户的个性化需求；

4、二、传统的展示方式无法通过实时调整和根据实际情况对内容进行生成，因此无法适应不同场景的展示要求；

5、三、在传统展示方式下，操作者必须提前制作好视频并输入到展示装置中，然而，在展示装置中进行控制和调整则需要繁琐的人工操作，增加了操作的难度和复杂度，降低了展示平台的便捷性；

6、因此，迫切需要一种基于aigc技术的平面设计展示方法，解决上述问题。

技术实现思路

1、本专利技术的目的在于提供一种基于aigc技术的平面设计展示方法，具备智能化的优点，解决了上述
技术介绍
提出的问题。

2、为达成上述目的，本专利技术提供如下技术方案：一种基于aigc技术的平面设计展示方法，其方法包括如下步骤：

3、s1：输入对象特征、输入外观特征，输入动态特征，利用编码器对对象特征进行解析，利用解码器对结果进行输出，接着利用一个编码器对外观特征和动态特征进行解析，将两者的解析结果进行融合，并利用解码器对结果进行输出，将输入对象特征、输入外观特征和输入动态特征解析结果进行融合，此时关键的实体已形成；在上述基础上，使用一对一的编码器分别对具体的对象特征、具体外观特征和具体动态特征进行解析，在通过每两个融合的方式，捕捉两者之间的交互关系，对在得到动态的实体特征后，模型将其和原本的动态特征进行拼接，关键实体生成后，在特征融合的作用下，提取的图像特征经过语义增强后得到了丰富的信息，将关键实体和特征融合之间的交互关系融合，此时全局视觉信息和整个语言层面的描述已被连接起来，最终描述生成；

4、s2：输入文本信息，使用语音合成引擎生成语音输出；进一步也可利用语音合成的方式进行语音输出语音加输入文本，事先准备好录制好的语音片段，根据输入的文本信息连接语音片段，通过计算机算法将文本转换为可听的语音输出的技术，语音克隆对合成的语音输出；

5、s3：输入语音，通过语音识别器对语音进行识别，递归神经网络通过学习序列数据的上下文依赖关系，生成连续的文本，并且通过将上一个时间步的输出作为当前时间步的输入，文本成功生成；

6、s4：文本、图像和语音生成后，使用一个编码器和两个解码器，对他们三者进行解析，编码器负责将文本、图像和语音的特征编码为一组特征相向，解码器分别学习静态和动态信息之间的关联，学习序列上下文信息之间的关系，对它们的信息进行交叉匹配和融合，最终得要视觉表示；

7、s5：利用采集模块对文本、语音和图像的信息进行收集，并在处理模块的作用下，对收集到的信息进行处理，通过处理后，将文本、语音和图像进行区分，划分到不同的区域，当文本、语音和图像生成时，利用解码器对三者进行解析，接着利用生成模块对信息进行融合，此时造就视频或图像的生成，视频生成后，利用aigc平台进行展示。

8、本专利技术中，步骤s2中，输入文字转化为语音的具体步骤为：

9、s2.1.1：对输入的文本进行预处理，包括去除标点符号、标记化为单词或字符，处理数字和特定的缩写等；

10、s2.1.2：选择适合任务需求的语音合成模型，这一步骤包括将文本转换为音素音位序列，或使用字音素序列，以及进行音节、音韵和声调等语言特征的分析；

11、s2.1.3：利用大量的文本和相应的语音数据，训练声学模型，该模型可以学习到文本和音频之间的关联性，以及音频的声学特征；

12、s2.1.4：基于输入的文本和训练得到的模型，通过声学模型生成语音波形，生成合成语音；

13、s2.1.5：对生成的语音进行一些后处理操作，以提高语音的质量和自然度，其中包括调整音调、音量、语速等。

14、本专利技术中，步骤s2中，输入文字加语音片段合成语音的具体步骤为：

15、s2.2.1：事先构建一个语音数据库，也被称为语音库或语音单位库，该库包含了大量的录制语音，这些语音涵盖了各种可能的音素、音节、单词和短语等；

16、s2.2.2：将输入的文本转换为对应的音素序列，这可以通过使用文本到语音转换的工具或语音合成系统的内部处理来实现；

17、s2.2.3：根据音素序列，在语音库中选择与每个音素相对应的合适的语音片段，每个语音片段通常对应于一个音素或一组音素；

18、s2.2.4：将选定的语音片段按照顺序拼接起来，形成连续的语音输出，其中包含有对语音片段进行适当的调整和平滑处理，以确保拼接的语音流畅自然；

19、s2.2.5：对生成的语音输出进行一些后处理操作，如声调、音量、语速的调整，以提高语音的质量和自然度。

20、优选的，步骤s3中，语音克隆包含有语音特征提取模块，语音特征提取模块提取合成的语音，通过信号处理技术，对语音的平滑进行处理，进而利用语音克隆输出。

21、本专利技术中，步骤s3中，文本生成前，对文本输出进行检测的方法如下：

22、s3.1：首先设置一个“生成结果是否契合”的判断，文本生成后，判断生成的结果是否与展示主题相匹配，若是“是”，反之，则重新编辑，重新生成文本；

23、s3.2：接下来，对生成结果的语句是否通顺进行检测，若结果是“是”，则进行输出，反之，重新编辑，并重新生成文本。

24、有益效果，本申请的技术方案具备如下技术效果：本专利技术具备智能化的优点，在实际的使用过程中，较大程度上提升了展示效果和用户体验，与传统的展示方式相比，本专利技术能够根据操作者的要求和描述，实时生成内容，而不仅仅是简单地播放已经制作好的视频，这意味着展示装置不再局限于预先准备好的内容，而能够根据操作者的实际需求进行自动化的内容生成；

25、操作者可以通过输入各种形式的信息，如图片、文本等，来指导展示装置生成符合其需求的内容，此外，操作者可以通过语音指令的方式与展示装置进行交互，无需繁琐的手动操作，展示装置能够识别和理解操作者的语音命令，根据指令调整展示内容或提供相关信息，这种自然而便捷的交互方式大大提高了用户体验，使展示过程更加智能化和个性化。

本文档来自技高网...

【技术保护点】

1.一种基于AIGC技术的平面设计展示方法，其特征在于：其方法包括如下步骤：

2.根据权利要求1的一种基于AIGC技术的平面设计展示方法，其特征在于：步骤S2中，输入文字转化为语音的具体步骤为：

3.根据权利要求1的一种基于AIGC技术的平面设计展示方法，其特征在于：步骤S2中，输入文字加语音片段合成语音的具体步骤为：

4.根据权利要求1的一种基于AIGC技术的平面设计展示方法，其特征在于：步骤S2中，语音克隆包含有语音特征提取模块，语音特征提取模块提取合成的语音，通过信号处理技术，对语音的平滑进行处理，进而利用语音克隆输出。

5.根据权利要求1的一种基于AIGC技术的平面设计展示方法，其特征在于：步骤S3中，文本生成前，对文本输出进行检测的方法如下：

【技术特征摘要】

1.一种基于aigc技术的平面设计展示方法，其特征在于：其方法包括如下步骤：

2.根据权利要求1的一种基于aigc技术的平面设计展示方法，其特征在于：步骤s2中，输入文字转化为语音的具体步骤为：

3.根据权利要求1的一种基于aigc技术的平面设计展示方法，其特征在于：步骤s2中，输入文字加语音片段合成语音的具体步骤为：

<...

【专利技术属性】
技术研发人员：史明，周晶璇，
申请(专利权)人：上海瓣鼎网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人