基于生成式人工智能的多媒体儿童绘本生成方法及系统技术方案

技术编号：40471493 阅读：5 留言：0更新日期：2024-02-26 19:09

本发明专利技术公开了基于生成式人工智能的多媒体儿童绘本生成方法及系统，该方法包括：获取目标实体绘本所扫描后的图像，识别并提取图像中的文字信息；分析提取出主体、动作和相应的描述信息；检测图像中的主体物体，并和背景进行分离处理；根据检测出的主体物体，以及分析提取出的主体、动作和相应的描述信息，结合预设模板，生成Stable‑Diffusion模型的引导语；采用预训练过的Stable‑Diffusion模型，生成动态图像；并补全分离出的主体物体的背景画面；将动态图像输入SwinBERT视频摘要模块，获得对应的视频描述摘要；根据动态图像的内容或预先设置的内容，合成相应的旁白、对白或背景音，从而将静态画面的绘本转变为生成式的多媒体儿童绘本。该方法有助于为儿童提供个性化和交互性的体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像、文字、语音生成式人工智能领域，更具体的说是涉及一种基于生成式人工智能的多媒体儿童绘本生成方法及系统。

技术介绍

1、目前，儿童绘本在培养儿童阅读兴趣、启发想象力和发展语言能力方面起着重要作用。在现代社会中，儿童教育和娱乐领域对于创新的需求不断增加。传统的纸质儿童绘本虽然具有亲和力和触觉体验，但其内容和形式受到限制，传统的儿童绘本通常只包含静态图像和文字，缺乏动态和声音元素，难以吸引儿童的注意力，无法提供个性化和交互性的体验。因此，需要一种能够生成多媒体儿童绘本的系统，以提供更加丰富、生动的阅读体验。

2、随着生成式人工智能技术的发展，基于该技术的多媒体儿童绘本生成系统应运而生。基于生成式人工智能的多媒体儿童绘本生成系统能够实现自动化的绘本再创作过程，为儿童提供个性化、交互性强且富有趣味性的阅读和娱乐体验。

3、因此，如何结合生成式人工智能技术，将静态绘本再创作为多媒体儿童绘本，为儿童提供个性化、交互性强且富有趣味性的阅读和娱乐体验，是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于生成式人工智能的多媒体儿童绘本生成方法及系统，可以实现基于静态绘本的自动化再创作过程，为儿童提供个性化、交互性强且富有趣味性的阅读和娱乐体验。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术实施例提供一种基于生成式人工智能的多媒体儿童绘本生成方法，包括以下步骤：

4、s1

5、s2、分析所述文字信息的语句句法，提取出主体、动作和相应的描述信息；

6、s3、检测所述图像中的主体物体；

7、s4、将所述图像中的主体物体和背景进行分离处理；

8、s5、根据所述图像中检测出的主体物体，以及分析所述文字信息并提取出的主体、动作和相应的描述信息，结合预设模板，生成stable-diffusion模型的引导语；

9、s6、采用预训练过的stable-diffusion模型，将所述图像中分离出的主体物体的静态画面生成动态图像；并补全分离出的主体物体的背景画面；

10、s7、将所述动态图像输入swinbert视频摘要模块，获得对应的视频描述摘要；

11、s8、根据所述动态图像的内容或预先设置的内容，合成相应的旁白、对白或背景音，从而将静态画面的绘本转变为生成式的多媒体儿童绘本。

12、进一步地，所述步骤s1包括：

13、对纸质目标实体绘本的每一页扫描做成一张数码图像；或直接获取电子目标实体绘本的每一张数码图像；

14、对所述数码图像，进行ocr文字检测和识别提取，并记录文字在所述数码图像中的位置。

15、进一步地，所述步骤s2包括：

16、采用预先训练好的nlp句法分析模型，对所述文字信息进行句法分析，提取出绘本中描述句中的主语、行为动作和相应的描述信息。

17、进一步地，所述步骤s3包括：

18、采用针对儿童绘本预训练过的物体识别模型，进行所述图像中的物体识别；

19、识别出所述图像中的主体物体，及其在所述图像中的位置。

20、进一步地，所述步骤s4包括：

21、将所述图像中的主体物体作为前景，进行图像的语义分割；

22、获得所述主体物体在图像中的蒙板像素，将所述主体物体从背景中提取出来；

23、对所述主体物体在图像中的二维坐标加上z轴信息，转成三维坐标；若提取出物体之间有重叠关系，则在z轴信息上进行区别；

24、将所述主体物体从图像中扣除，获得一张背景图；将所述背景图的z轴设置为基准0。

25、进一步地，所述步骤s5还包括：

26、如果所述主体物体与某一句的句法分析中的主体匹配，预设模版为：根据主体、动作和相应的描述信息，生成连续的图片，补全其引导语；

27、如果目标物体不能跟句法分析中的主体匹配，或句法分析中没有发现表明动作的动词，则预设模版为：根据主体和相应的描述信息，设定一个预设动作，并根据该动作补全连续图片生成的引导语。

28、进一步地，所述步骤s6包括：

29、s61、将所述图像中分离出的背景图片或者是被遮挡的前景图片，输入经过预训练的stable-diffusion模型，进行静态图的补全；

30、s62、将提取出的主体物体图片，或提取后进行补全的主体物体图片，以及所述引导语，输入预训练的stable-diffusion模型，生成对应物体和对应动作的连续的多帧图片；

31、s63、将多组物体生成的多帧图片进行时间线对齐，并拼贴到补全后的静态背景图中；拼贴时，利用所述z轴信息，保持提取出的物体相互间的重叠关系；

32、s64、按照上述步骤s61～s63生成连续动作的多帧图片；将所述多帧图片按照设定的帧率进行连续循环播放，制作出动态绘本中的一页。

33、进一步地，所述步骤s8包括：

34、根据获得的所述视频描述摘要，调用llm模型，获得对应的背景音类型；从背景音库中进行匹配搜索，获得对应的背景音；

35、针对儿童绘本，预训练各种卡通和动物人物的语音合成vall-e模型；根据所述视频描述摘要，若画面中的物体人物有对白，从人物语音库中搜索匹配人物特征，找到最匹配的语音模型；根据所述句法分析提取的文字内容，合成对白语音；

36、若画面中的文字是旁白，采用预设的语音模型生成旁白；

37、将所述对白、旁白根据时间顺序进行排序，然后与背景音进行融合，生成当前页绘本的语音文件；将所述语音文件和所述动态图像的内容结合，生成当前页绘本最终的视频文件。

38、第二方面，本专利技术实施例还提供一种基于生成式人工智能的多媒体儿童绘本生成系统，包括：

39、扫描提取模块，用于获取目标实体绘本所扫描后的图像，识别并提取所述图像中的文字信息；

40、句法分析模块，用于分析所述文字信息的语句句法，提取出主体、动作和相应的描述信息；

41、图像物体检测模块，用于检测所述图像中的主体物体；

42、图像语义分割模块，用于将所述图像中的主体物体和背景进行分离处理；

43、引导语文本生成模块，用于根据所述图像中检测出的主体物体，以及分析所述文字信息并提取出的主体、动作和相应的描述信息，结合预设模板，生成stable-diffusion模型的引导语；

44、动态图像生成模块，用于采用预训练过的stable-diffusion模型，将所述图像中分离出的主体物体的静态画面生成动态图像；并补全分离出的主体物体的背景画面；

45、视频摘要描述模块，用于将所述动态图像输入swinbert视频摘要模块，获得对应的视频描述摘要；

本文档来自技高网...

【技术保护点】

1.基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S2包括：

4.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S4包括：

6.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S5还包括：

7.根据权利要求5所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S6包括：

8.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤S8包括：

9.基于生成式人工智能的多媒体儿童绘本生成系统，其特征在于，包括：

【技术特征摘要】

1.基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤s1包括：

3.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤s2包括：

4.根据权利要求1所述的基于生成式人工智能的多媒体儿童绘本生成方法，其特征在于，所述步骤s3包括：

5.根据权利要求1所述的基于生成式人工智能的多...

【专利技术属性】
技术研发人员：朱亮亮，熊杰，
申请(专利权)人：开望杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人