平安科技深圳有限公司专利技术

平安科技深圳有限公司共有16707项专利

  • 本申请实施例提供了一种轨迹预测方法、控制器、机器人及存储介质,涉及路径规划技术领域,适用于金融科技领域和医疗健康领域。该方法包括:确定影响在目标场景的目标机器人移动路径的智能体;获取智能体的基础恒速模型,且获取智能体的至少两个基础移动约...
  • 本发明涉及语义解析技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于记忆槽和语义对齐的问答方法、装置、设备及介质,包括:获取文档集合并存入知识库,对文档集合进行语义聚合生成记忆槽集合并建立映射关系;对记忆槽集合进行语义对齐...
  • 本申请实施例属于音频处理技术领域,涉及一种语音合成方法、装置、计算机设备及存储介质,该方法包括:获取语音提示文本;将所述音色提示文本输入至音色编码器进行音色编码,得到音色特征向量;将所述情感提示文本输入至情感编码器进行情感编码,得到情感...
  • 本发明涉及云计算与网络功能虚拟化技术领域,可应用于医疗及金融领域,公开了一种云网络服务智能调度方法、系统、设备及存储介质,方法包括:为云网络服务配置域标签和意图标签,按预设周期采集云网络服务的多维状态数据构建时序数据流,采用预训练的时序...
  • 本申请属于人工智能技术领域,涉及一种语音生成方法、装置、设备及存储介质,通过获取待进行语音生成的词级语音文本;将词级语音文本输入到学习训练完成的辅助性语音插入规划器中;获取辅助性语音插入规划器所输出的语音生成编码序列;采用预设的语音解码...
  • 本申请公开一种语音合成方法、装置、计算机设备及存储介质,涉及人工智能技术领域,可以应用于医疗类语音生成场景或金融类语音生成场景。通过语义token路径增强了语音对深层语义结构的建模能力,保证了语义表达的连贯性和清晰度;通过文本条件与语音...
  • 本申请公开了一种缓解大型视觉语言模型幻觉的推理干预方法、装置、介质及设备,涉及人工智能及智能医疗和智能金融技术领域。其中方法包括:针对当前待生成的输出令牌,构建包含图像令牌和文本令牌的多模态输入流以及仅包含文本令牌的纯文本输入流;在语言...
  • 本发明涉及机器人技术领域,可应用于金融科技和医疗健康领域,公开了一种多机器人协作方法、装置、设备及介质,方法包括:采集外呼场景下的原始任务数据,并对所述原始任务数据进行处理得到目标任务数据;根据所述目标任务数据对多个机器人进行任务分配,...
  • 本申请实施例属于音频处理技术领域,涉及一种语音合成方法、装置、计算机设备及存储介质,该方法包括:获取模型训练数据;调用原始多用户语音合成模型,并将用户标识以及训练文本输入至原始多用户语音合成模型,得到合成语音;根据合成语音以及训练语音构...
  • 本申请属于人工智能技术领域,涉及一种语音合成方法、装置、设备及存储介质,通过获取预测出的所有副语言标签以及每个副语言标签的初始插入信息;将待合成语音文本数据和所有副语言标签输入到改进型语音合成模型中;提取语义特征、情感特征和动态韵律特征...
  • 本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于频段调整的语音生成方法、装置、设备及介质,包括:获取情感参考语音与中性参考语音并确定情感向量;获取输入文本,通过文本到语音模型生成中间声学特征;将中间声学...
  • 本发明涉及人工智能、语音处理技术领域,可应用于智慧医疗和金融领域,公开了一种音频伪造检测方法、装置、计算机设备及存储介质,包括:对待检测的音频信号进行预处理,并提取预处理后的音频信号的频域特征和时域特征,得到时域特征序列和频域特征序列;...
  • 本申请公开一种语音合成模型训练方法、情感语音合成方法、装置及介质,涉及音频处理技术领域,可应用于金融科技和医疗健康业务场景,训练方法包括:获取包含文本信息、情感强度信息、语音信息的样本语音数据以及对应的基准语音;确定样本语音数据对应的文...
  • 本发明公开了音唇同步检测方法、装置、计算机设备及存储介质,所述方法包括:获取待检测音视频的音频帧序列和视频帧序列,并得到音频每一帧存在人说话声音的概率序列和视频每一帧嘴巴运动的概率序列;对人说话声音的概率序列和嘴巴运动的概率序列进行偏移...
  • 本发明涉及金融场景的语音处理技术领域,公开了语音合成质量预测方法、装置、计算机设备及存储介质,该方法在金融场景的语音合成质量预测应用中,通过多尺度分块‑特征提取‑多尺度融合‑帧级预测的连贯技术路径,解决了现有技术中因全局建模导致的局部失...
  • 本发明公开了语音合成方法、装置、计算机设备及存储介质,所述方法包括:获取多模态背景音条件输入数据;对多模态背景音条件输入数据进行模态完整性检测,以得到检测结果;根据检测结果生成环境背景音特征嵌入向量;获取待合成文本数据与说话人参考音频数...
  • 本发明涉及金融和医疗场景的语音处理技术领域,公开了语音合成方法、装置、计算机设备及存储介质。该方法包括:获取文本序列和对应的语音序列;将语音序列输入扩散模型进行去噪并生成中间隐藏状态和输出计算扩散损失;在模型中间层引入连接主义时间分类C...
  • 本发明涉及人工智能技术领域,提供一种基于图文交错指令的机器人控制方法、装置、设备及介质,应用于金融、医疗健康养老业务场景中,能够构建以图文混合格式为输入数据格式、以视觉语言模型为骨干模型的初始模型,突破传统视觉‑语言‑动作模型仅能处理图...
  • 本申请提出的对话语音生成方法和装置、电子设备、存储介质,涉及人工智能技术领域,适用于金融领域及医疗领域。该方法包括:获取对话文本,对对话文本进行文本语义解析,得到内容单元序列,并对对话文本进行基频预测,得到基频单元序列;从内容单元序列确...
  • 本申请属于人工智能技术领域,应用于对医学影像进行图像分析和描述文本生成场景中,涉及一种图像分析方法、装置、设备及存储介质,通过对目标输入图像进行图像特征提取,得到每个目标识别区域的多维度图像特征;通过特征筛选,得到事件特征组合数据;通过...