基于LLM和ANN的数字人生成方法及其在云视频的应用技术

技术编号：40452715 阅读：9 留言：0更新日期：2024-02-22 23:11

本发明专利技术涉及人工智能技术领域，具体为基于LLM和ANN的数字人生成方法及其在云视频的应用，包括以下步骤：基于捕获的视频数据，采用渐进式关键帧优化技术，通过卷积神经网络的边缘检测算法分析视频帧的特征，自动识别出关键帧，并筛除非关键帧，进行视频数据处理和关键帧的优化处理，生成关键帧数据集。本发明专利技术中，通过渐进式关键帧优化技术和基于子空间学习的特征分离算法能够更加高效和准确地从大规模或多源异构数据中提取关键信息，通过自动化特征提取与优化算法的应用，本发明专利技术在处理复杂环境下的人体姿态估计方面显著提高了准确性和运算效率，此外，还包括针对数据预处理的优化措施，更有效地处理各种噪声和异常值，提高生成数字人的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及基于llm和ann的数字人生成方法及其在云视频的应用。

技术介绍

1、人工智能
致力于开发能够理解、解释和利用视觉数据的系统和算法。通过运用深度学习、机器学习、图像处理等技术，这一领域不断推进计算机对视觉信息的理解，包括物体识别、场景理解、人体姿态估计等。特别地，人工智能的子领域，如语音处理和自然语言理解，也在数字人生成中发挥着重要作用。

2、其中，基于llm和ann的数字人生成方法是一种结合了大型语言模型（llm）和人工神经网络（ann）的技术，旨在创建逼真的数字人物形象，目的是生成能够模仿真实人类语言和表情的数字角色，通过视频和音频数据采集、处理及同步，结合人体关键点信息和语音特征，数字人生成方法在提高数字角色的真实感和互动性方面取得了显著进展，它在娱乐、教育、客户服务等多个领域具有广泛的应用潜力，该方法通过以下手段达成：首先，利用摄像头和音频设备采集视频和音频信息，然后，使用openpose算法从视频中提取人体关键点信息，并对音频信息进行处理，提取语音特征，接着，通过数据同步和标注，确保视频和音频数据的一致性，在数据预处理阶段，进行数据清洗和标准化，紧接着，利用人工神经网络模型结合关键点信息和语音特征进行数字人物的生成，确保生成的数字人物在视觉和听觉上具有高度一致性和真实感，最后，通过联合训练技术优化模型，以实现更加精确和逼真的数字人生成。

3、虽然现有技术在数字人生成方面取得了显著的进展，特别是在增强数字角色的真实感和互动性方面，但仍面临如下不足，尽管可以从视

技术实现思路

1、本专利技术的目的是解决现有技术中存在的缺点，而提出的基于llm和ann的数字人生成方法及其在云视频的应用。

2、为了实现上述目的，本专利技术采用了如下技术方案：基于llm和ann的数字人生成方法，包括以下步骤：

3、s1：基于捕获的视频数据，采用渐进式关键帧优化技术，通过卷积神经网络的边缘检测算法分析视频帧的特征，自动识别出关键帧，并筛除非关键帧，进行视频数据处理和关键帧的优化处理，生成关键帧数据集；

4、s2：基于所述关键帧数据集，采用基于子空间学习的特征分离算法，通过独立成分分析进行统计独立性分析，分离混合信号源，再通过主成分分析进行数据维度调整并突出关键特征，生成特征分离数据集；

5、s3：基于所述特征分离数据集，采用自动化特征提取与优化算法，通过遗传算法和模拟退火技术，在多维参数空间中寻找匹配的解决方案同时避免局部匹配解决方案情况出现，进行参数调整和优化，生成优化特征参数集；

6、s4：基于所述优化特征参数集，采用基于流形学习的特征映射优化技术，通过非线性降维算法分析数据的内在几何结构，捕获特征间的相互作用，进行映射优化处理，生成映射优化后的特征集；

7、s5：基于所述特征分离数据集、优化特征参数集和映射优化后的特征集，采用异构数据集成与优化框架，通过深度学习融合技术和协同过滤算法，对多类数据特征进行匹配和关联分析，进行数据源间的同步和整合，生成多源特征融合数据集；

8、s6：基于所述多源特征融合数据集，采用数据驱动的实时优化策略，通过性能指标监控和异常检测方法，对模型性能的连续评估和分析，进行ann模型的实时监控和调整，采用基于反射网络的性能调优机制，通过动态调整神经网络的层级和节点数量，根据处理需求优化网络结构，并进行性能调整，生成优化后的ann模型；

9、s7：基于所述优化后的ann模型，采用深度学习和自然语言处理技术，通过循环神经网络和注意力机制法，执行模式识别和语义关系挖掘，对所述多源特征融合数据集进行语义分析和提升，结合所述优化后的ann模型进行数字人的初步生成，再结合llm模型优化数字人在语言交互和情感表达方面的自然度和准确性，生成成型的数字人。

10、作为本专利技术的进一步方案，所述关键帧数据集包括动态变化多的帧、多视觉内容的帧、情节转折点的帧，所述特征分离数据集包括从原始数据中分离出的统计独立的特征、经过维度优化的关键特征，所述优化特征参数集包括特征权重、模型超参数、优化目标函数的参数，所述映射优化后的特征集包括经过几何结构优化的特征映射、数据内在相互作用突出的特征，所述多源特征融合数据集包括视频内容的视觉特征、音频数据的声音特征、文本数据的语义特征，所述优化后的ann模型包括具有改进的网络层级结构、优化的节点数量、调整后的网络参数。

11、作为本专利技术的进一步方案，基于捕获的视频数据，采用渐进式关键帧优化技术，通过卷积神经网络的边缘检测算法分析视频帧的特征，自动识别出关键帧，并筛除非关键帧，进行视频数据处理和关键帧的优化处理，生成关键帧数据集的步骤具体为：

12、s101：基于捕获的视频数据，采用渐进式关键帧优化技术，通过深度学习驱动的帧间差异分析和动态内容评估，分析视频帧的特征，并辨别关键视觉元素，生成初步关键帧候选集；

13、s102：基于所述初步关键帧候选集，采用关键帧精选算法，结合视觉内容分析和帧重要性评估，识别并保留具有代表性和多信息的帧，生成优化后的关键帧集合；

14、s103：基于所述优化后的关键帧集合，采用帧间比对算法，通过图像相似度度量和内容重复性分析，剔除内容相似和重复的帧，优化关键帧的独特性和覆盖范围，生成简化后的关键帧集；

15、s104：基于所述简化后的关键帧集，采用数据压缩和格式优化技术，通过编码效率优化和存储格式标准化，对数据进行处理和格式调整，优化存储和处理效率，生成关键帧数据集。

16、作为本专利技术的进一步方案，基于所述关键帧数据集，采用基于子空间学习的特征分离算法，通过独立成分分析进行统计独立性分析，分离混合信号源，再通过主成分分析进行数据维度调整并突出关键特征，生成特征分离数据集的步骤具体为：

17、s201：基于所述关键帧数据集，采用基于子空间学习的特征分离算法，通过信号源分离和统计特征提取，进行独立成分分析，分离和提取关键信息，生成初步特征分离数据集；

18、s202：基本文档来自技高网...

【技术保护点】

1.基于LLM和ANN的数字人生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：所述关键帧数据集包括动态变化多的帧、多视觉内容的帧、情节转折点的帧，所述特征分离数据集包括从原始数据中分离出的统计独立的特征、经过维度优化的关键特征，所述优化特征参数集包括特征权重、模型超参数、优化目标函数的参数，所述映射优化后的特征集包括经过几何结构优化的特征映射、数据内在相互作用突出的特征，所述多源特征融合数据集包括视频内容的视觉特征、音频数据的声音特征、文本数据的语义特征，所述优化后的ANN模型包括具有改进的网络层级结构、优化的节点数量、调整后的网络参数。

3.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于捕获的视频数据，采用渐进式关键帧优化技术，通过卷积神经网络的边缘检测算法分析视频帧的特征，自动识别出关键帧，并筛除非关键帧，进行视频数据处理和关键帧的优化处理，生成关键帧数据集的步骤具体为：

4.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述关

5.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述特征分离数据集，采用自动化特征提取与优化算法，通过遗传算法和模拟退火技术，在多维参数空间中寻找匹配的解决方案同时避免局部匹配解决方案情况出现，进行参数调整和优化，生成优化特征参数集的步骤具体为：

6.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述优化特征参数集，采用基于流形学习的特征映射优化技术，通过非线性降维算法分析数据的内在几何结构，捕获特征间的相互作用，进行映射优化处理，生成映射优化后的特征集的步骤具体为：

7.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述特征分离数据集、优化特征参数集和映射优化后的特征集，采用异构数据集成与优化框架，通过深度学习融合技术和协同过滤算法，对多类数据特征进行匹配和关联分析，进行数据源间的同步和整合，生成多源特征融合数据集的步骤具体为：

8.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述多源特征融合数据集，采用数据驱动的实时优化策略，通过性能指标监控和异常检测方法，对模型性能的连续评估和分析，进行ANN模型的实时监控和调整，采用基于反射网络的性能调优机制，通过动态调整神经网络的层级和节点数量，根据处理需求优化网络结构，并进行性能调整，生成优化后的ANN模型的步骤具体为：

9.根据权利要求1所述的基于LLM和ANN的数字人生成方法，其特征在于：基于所述优化后的ANN模型，采用深度学习和自然语言处理技术，通过循环神经网络和注意力机制法，执行模式识别和语义关系挖掘，对所述多源特征融合数据集进行语义分析和提升，结合所述优化后的ANN模型进行数字人的初步生成，再结合LLM模型优化数字人在语言交互和情感表达方面的自然度和准确性，生成成型的数字人的步骤具体为：

10.基于LLM和ANN的数字人生成方法在云视频的应用，其特征在于，包括以下步骤：

...

【技术特征摘要】

1.基于llm和ann的数字人生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于llm和ann的数字人生成方法，其特征在于：所述关键帧数据集包括动态变化多的帧、多视觉内容的帧、情节转折点的帧，所述特征分离数据集包括从原始数据中分离出的统计独立的特征、经过维度优化的关键特征，所述优化特征参数集包括特征权重、模型超参数、优化目标函数的参数，所述映射优化后的特征集包括经过几何结构优化的特征映射、数据内在相互作用突出的特征，所述多源特征融合数据集包括视频内容的视觉特征、音频数据的声音特征、文本数据的语义特征，所述优化后的ann模型包括具有改进的网络层级结构、优化的节点数量、调整后的网络参数。

3.根据权利要求1所述的基于llm和ann的数字人生成方法，其特征在于：基于捕获的视频数据，采用渐进式关键帧优化技术，通过卷积神经网络的边缘检测算法分析视频帧的特征，自动识别出关键帧，并筛除非关键帧，进行视频数据处理和关键帧的优化处理，生成关键帧数据集的步骤具体为：

4.根据权利要求1所述的基于llm和ann的数字人生成方法，其特征在于：基于所述关键帧数据集，采用基于子空间学习的特征分离算法，通过独立成分分析进行统计独立性分析，分离混合信号源，再通过主成分分析进行数据维度调整并突出关键特征，生成特征分离数据集的步骤具体为：

5.根据权利要求1所述的基于llm和ann的数字人生成方法，其特征在于：基于所述特征分离数据集，采用自动化特征提取与优化算法，通过遗传算法和模拟退火技术，在多维参数空间中寻找匹配的解决方案同时避免局部匹配解决方案情况出现，进行参数调整和优化，生成优化特征参数集的步骤...

【专利技术属性】
技术研发人员：许可，马松，
申请(专利权)人：广州光点信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人