北京中科深智科技有限公司专利技术

北京中科深智科技有限公司共有72项专利

  • 一种语音识别中说话人停顿处理的方法,包括如下步骤:步骤一:获取语音,通过ASR对语音进行识别;步骤二:通过使用LLM大语言模型的Prompt提示词话术来实现断句检测;步骤三:若步骤二检测断句语意完整则输出该ASR文本送入后续处理流程;步...
  • 一种基于in
  • 基于有向图的3D表情合成方法,包括如下步骤:步骤一:通过视素对齐和聚类的方法在训练数据集自动识别到这个数据集中不同的视素到口型相关的面部权重范围的映射关系;步骤二:对训练数据集中所有的面部权重进行切分得到若干片段,计算任意两段之间过渡的...
  • 基于聚焦
  • 一种面向语音合成的自动化语音数据校验方法,包括如下步骤:步骤一:由专业的声优在专业的录音棚录制音频语料;步骤二:声优录制好一段完整的音频后,开始对音频剪辑处理;步骤三:对整段录制的音频进行裁剪后,对各个短音频进行自动语音识别,获得每个音...
  • 本发明公开了一种基于区块链数字人捏造和鉴权使用与交易的方法,包括预定义虚拟数字人的头部和身体参数集模板;构建数字人特征体得到数字人;保存数字人建模数据到文件作为数字人资产,得到参数集1;对参数集1按参数名的二进制值排序,得到参数集2作为...
  • 本发明公开了一种基于LightHouse定位系统的动作捕捉方法,涉及动作捕捉领域。本发明包括以下步骤:搭建跟踪空间并初始化,演员穿戴跟踪器并对跟踪器进行标记;实时记录标记后跟踪器的位姿数据,通过校准方法将所述位姿数据转换到统一坐标系,并...
  • 本发明公开了一种MR混合摄影相机的标定方法和系统,通过室内定位系统获取多对物理相机中的像素坐标及对应的虚拟相机坐标系中的坐标;然后,根据所述多对物理相机中的像素坐标及对应的虚拟相机坐标系中的坐标,求解矩阵G;并分解所述矩阵G,得到旋转矩...
  • 本发明公开了一种基于数字人的多情感语音合成方法,包括以下步骤:获取多种情感下的音频语料;提取所述音频语料中的文本信息和音素时间戳,构建第一训练数据集;通过所述第一训练数据集对预先构建的音素时间戳预测模型进行训练;通过训练好的所述音素时间...
  • 本发明公开了一种基于问题类型识别的问答对联合生成模型,包括使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型,来辅助模型获取更多的知识生成问题和答案;将原始的流水线模型改进成将问题生成模块和答案抽取模块联合训练的模型;在...
  • 本发明公开了一种高效的区块链交易验证与查询方法及系统,该方法包括:客户端通过网络请求向记账节点端获取区块链的最大区间范围和最新区块号,计算交易的区块号区间,并将其写入交易单;记账节点端根据交易单生成交易标识,并将交易标识作为交易回执返回...
  • 本发明公开了一种基于扫描光学的室内空间定位系统,包括:定位器,包括至少两个扫描面,以通过扫描面周期性旋转的同时发射红外光线;追踪器,设置在待定位的目标上,追踪器表面按预设几何规则分布设置有若干光敏传感器,以通过光敏传感器将接收到的红外光...
  • 本发明公开了一种LED虚拟拍摄切割合成方法,包括:在二维的屏幕空间坐标系下,将LED面板组合体的面片所占据区域分解为多个三角形,表示为一个三角形数组;通过三角形对平面进行裁剪,把投影相机的视锥体分解为平面;遍历所有面片及其所有三角形,通...
  • 本发明公开了一种基于轻量微调的生成个性化商品描述的生成模型,包括:使用商品属性的结构化数据对基于Transformer的解码器的预训练模型进行训练;对各类别商品数据进行轻量微调;采用前缀微调的方法,在预训练模型的前部前置一个前置模块,进...
  • 本发明公开了一种基于时序卷积的语音驱动口型的方法和系统,包括:采用blendshape来表示嘴部的动作,通过神经网络输出多个blendshape的权重,通过组合这些blendshape的值,得到嘴部动作的合理表示;嘴部动作的合理表示需要...
  • 本发明公开了一种利用LightHouse的身体关节测量方法,包括:测量坐标系的标定和tracker佩戴及动作规范;测量坐标系的标定,利用tracker来标定整个测量坐标系和地面高度;tracker佩戴及动作规范,记录tracker的轨迹...
  • 本发明公开了一种轻量级的基于2D视频的人脸表情驱动方法和系统,包括如下步骤:S1,通过摄像头获取数据;S2,数据预处理:对摄像头获取的数据进行预处理,获取截取的人脸区域图片;S3,特征提取:通过S2截取的人脸区域图片获取人脸特征以及面部...
  • 本发明公开了一种基于动作及语音特征的人脸图像动画方法和系统,包括:图像驱动方式及语音驱动方式;其中图像驱动方式为:输入一个人脸的谈话视频和另一个人的人脸,得到另一个人原本是静态图片的动态图像视频;语音驱动方式为:针对某个特定人物进行训练...
  • 本发明公开了一种用于电商直播场景的小样本多轮对话的生成模型,包括:使用一元语言模型构建包含字和词的中文词表,用jieba参照该词表对输入文本进行分词,用分词后得到的字和词对输入进行表征;字或词,角色,轮数和位置嵌入的和作为嵌入的表征输入...
  • 本发明公开了一种适用于电商直播中虚拟主播的自动语音合成方法,包括:对中文数据进行处理,以获取中文音频,以及中文因素库;对英文单词进行处理,以获取英文单词音频,并根据中文因素库,获取英文单词对应的中文因素标签;对英文字母进行处理,以获取英...