多媒体数据生成方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号：37467872 阅读：23 留言：0更新日期：2023-05-06 09:44

本申请涉及一种多媒体数据生成方法、装置、电子设备、介质及程序产品，应用于多媒体数据处理技术领域，所述方法包括：接收用户输入的文本信息；若响应到针对文本信息的录音触发操作，显示文本信息，并采集文本信息的第一朗读语音；基于文本信息和第一朗读语音，生成第一多媒体数据并展示；其中，第一多媒体数据包括第一朗读语音以及与文本信息匹配的视频图像，第一多媒体数据包括多个第一多媒体片段，多个第一多媒体片段分别对应于文本信息包含的多个文本分段。本申请可以提高多媒体数据生成的质量。成的质量。成的质量。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体数据生成方法、装置、电子设备、介质及程序产品

[0001]本申请涉及多媒体数据处理
，尤其涉及一种多媒体数据生成方法、装置、电子设备、介质及程序产品。

技术介绍

[0002]随着互联网的发展，越来越多的用户通过制作视频来和其他用户分享内容。相关技术中，可以根据用户编辑的文字生成视频数据，例如可以直接将文字转换为语音，并根据语音生成视频数据，然而，该方法生成的视频质量较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种多媒体数据生成方法、装置、电子设备、介质及程序产品。
[0004]根据本申请的第一方面，提供了一种多媒体数据生成方法，包括：
[0005]接收用户输入的文本信息；
[0006]若响应到针对所述文本信息的录音触发操作，显示所述文本信息，并采集所述文本信息的第一朗读语音；
[0007]基于所述文本信息和所述第一朗读语音，生成第一多媒体数据并展示；
[0008]其中，所述第一多媒体数据包括所述第一朗读语...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据生成方法，其特征在于，所述方法包括：接收用户输入的文本信息；若响应到针对所述文本信息的录音触发操作，显示所述文本信息，并采集所述文本信息的第一朗读语音；基于所述文本信息和所述第一朗读语音，生成第一多媒体数据并展示；其中，所述第一多媒体数据包括所述第一朗读语音以及与所述文本信息匹配的视频图像，所述第一多媒体数据包括多个第一多媒体片段，所述多个第一多媒体片段分别对应于所述文本信息包含的多个文本分段；其中，第一目标多媒体片段包括第一目标视频片段和第一目标语音片段，所述第一目标多媒体片段为所述多个多媒体片段中对应于所述多个文本分段中的第一目标文本分段的多媒体片段，所述第一目标视频片段包括与所述第一目标文本分段匹配的视频图像，所述第一目标语音片段包括所述第一目标文本分段的朗读语音。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：若响应到多媒体合成操作，将所述文本信息转换为语音数据；基于所述文本信息和所述语音数据，生成第二多媒体数据并展示；其中，所述第二多媒体数据包括所述语音数据以及与所述文本信息匹配的视频图像，所述第二多媒体数据包括多个第二多媒体片段，所述多个第二多媒体片段分别对应于所述文本信息包含的多个文本分段；第二目标多媒体片段包括第二目标视频片段和第二目标语音片段，所述第二目标多媒体片段为所述多个多媒体片段中对应于所述多个文本分段中的第二目标文本分段的多媒体片段，所述第二目标视频片段包括与所述第二目标文本分段匹配的视频图像，所述第二目标语音片段包括所述第二目标文本分段的朗读语音。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在生成所述第二多媒体数据之后，若响应到录音触发操作，显示所述文本信息，并采集所述文本信息的第二朗读语音；基于所述文本信息和所述第二朗读语音，生成第三多媒体数据并显示，以覆盖所述第二多媒体数据；其中，所述第三多媒体数据包括所述第二朗读语音以及与所述文本信息匹配的视频图像，所述第三多媒体数据包括多个第三多媒体片段，所述多个第三多媒体片段分别对应于所述文本信息包含的多个文本分段；第三目标多媒体片段包括第三目标视频片段和第三目标语音片段，所述第三目标多媒体片段为所述多个多媒体片段中对应于所述多个文本分段中的第三目标文本分段的多媒体片段，所述第三目标视频片段包括与所述第三目标文本分段匹配的视频图像，所述第三目标语音片段包括所述第三目标文本分段的朗读语音。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：若响应到针对所述第一目标语音片段的重录操作，删除所述第一目标语音片段；显示所述第一目标语音片段对应的第一目标文本分段，并采集所述第一目标文本分段的朗读片段；将所述朗读片段显示在所述第一目标语音片段对应的区域。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：在采集所述第一朗读语音时，如果检测到第一目标语音片段和所述第一目标文本分段
的匹配率低于匹配率阈值，标记所述第一朗读语音和所述第一目标文本分段。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：若响应到语音片段滑动操作，且指示所述第一朗读语音的第一光标滑动至所述第一目标...

【专利技术属性】
技术研发人员：曹嘉晋，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人