科大讯飞股份有限公司专利技术

科大讯飞股份有限公司共有4665项专利

  • 本发明提供一种问答方法、装置、设备及存储介质,涉及人工智能技术领域,包括:基于当前会话中的用户输入及目标历史会话,生成用户输入的上下文信息及意图标签;目标历史会话与当前用户输入之间的意图漂移分不大于第一阈值;意图漂移分是根据语义相似度及...
  • 本申请公开了一种声源定位方法、装置、设备和存储介质,该方法包括:获取目标声源信号到达麦克风阵列中不同麦克风的相位差,作为目标相位差,以及,获取目标声源信号的能量分布数据;综合目标相位差和能量分布数据进行声源定位,确定目标声源信号的目标定...
  • 本申请提供了一种模型训练方法、答题批改方法、装置和设备,包括:获取初始批改训练数据,使用初始批改训练数据对初始答题批改模型进行训练;使用训练后的初始答题批改模型对初始批改训练数据进行答题批改,得到答题批改结果;通过答题批改结果对初始批改...
  • 本发明提供一种安全带佩戴状态检测方法、装置、电子设备及存储介质,其中方法包括:获取包括乘员的座舱图像,对座舱图像进行人体关键点识别,得到乘员的人体姿态关键点,再对座舱图像进行安全带旋转检测,得到安全带旋转检测框,最后,基于人体姿态关键点...
  • 本发明提供一种显示控制方法、装置、电子设备和存储介质,该方法包括:在确定电子设备的设备状态发生变化时,根据电子设备在当前周期的设备状态信息,在多个预设模式中确定目标光场扫描模式;根据目标光场扫描模式,控制第一色彩传感器按照目标旋转路径对...
  • 本申请公开了一种角色生成方法和相关装置,该方法包括:响应于目标角色的触发指令,生成与目标角色的风格匹配的原始虚拟人;以及,获取对扮演者采集得到的头部图像;利用头部图像和原始虚拟人,驱动扮演者对应的目标虚拟人进行动画;其中,目标虚拟人为头...
  • 本发明提供一种声音复刻同声传译方法、装置、电子设备及存储介质,涉及语音处理技术领域,该方法通过引入声纹转折点检测,可以实时捕获说话人的声纹切换信号,生成声纹转折点信息,从而实现精准的多说话人识别和翻译输出,可以得到准确的当前说话人的音频...
  • 本申请公开了一种大语言模型能力评测方法及相关装置,涉及模型评测技术领域,大语言模型能力评测方法包括:获取待评测的大语言模型集中的每个大语言模型针对测试数据集中的每个测试问题生成的答案;利用规则生成大模型为每个测试问题生成对应的答案质量评...
  • 本发明提供一种语音合成方法、装置、电子设备及存储介质,涉及语音合成技术领域,所述方法首先获取待合成文本,然后根据加载的语种规则确定待合成文本的发音特征,接着通过语音合成模型根据发音特征对待合成文本进行语音合成,得到目标合成语音,能够根据...
  • 本发明提供一种数字人视频生成方法、装置、电子设备及存储介质,涉及数字人技术领域,其中方法包括:获取指令标签;基于指令标签和数字人的当前状态信息,从预设的视频信息库中,检索对应的第一过渡视频、目标指令视频和第二过渡视频;其中,第一过渡视频...
  • 本申请公开了一种寻物意图识别方法和灯光控制方法及相关装置、设备,其中,寻物意图识别方法包括:基于对目标场景拍摄的当前图像,生成当前图像中各个目标对象的检测框数据;基于检测框数据,生成对应目标对象的目标骨骼数据;基于目标骨骼数据进行预测,...
  • 本发明涉及低代码平台技术领域,提供一种数据库操作语句的执行方法、装置、设备和介质,所述方法包括:解析低代码平台发起的原始语句的语义,并识别原始语句对应的业务处理属性;根据业务处理属性,将原始语句分发至与业务处理属性相匹配的目标数据库,其...
  • 本申请公开了一种大模型越狱漏洞测试方法、设备及计算机程序产品,该方法包括:首先通过领域转换的方式,从转移领域库和攻击方法库中,确定目标恶意查询文本对应的目标转移领域和目标攻击方法,然后结合大模型越狱攻击历史记录库,生成第一提示指令,输入...
  • 本发明提供一种语音分离方法、装置、电子设备和存储介质,方法包括:对多组语音信号进行一级音区划分,得到多个一级音区的一级掩码,多组语音信号由多个麦克风阵列同步拾取得到,一级音区与麦克风阵列一一对应;对各组语音信号分别进行二级音区划分,得到...
  • 本发明提供一种语音合成、声学模型训练方法、电子设备和存储介质,方法包括:获取语义特征,以及初始化时间步和输入特征;将语义特征、时间步和输入特征输入声学模型,得到声学模型输出的估计声学特征,更新时间步,以及基于估计声学特征更新输入特征,将...
  • 本发明提供一种图文识别模型的分析方法和程序产品,涉及图文识别技术领域。其中方法包括:基于第一图文识别模型对测试图像进行识别的第一输出数据,以及第二图文识别模型对测试图像进行识别的第二输出数据,检测第一图文识别模型与第二图文识别模型的相似...
  • 本发明提供一种语音数据响应方法、装置、电子设备和存储介质,属于智能交互技术领域,包括:获取与待响应的第一语音数据对应的第一文本数据和第一情感信息;采用语音识别模块对第一语音数据进行处理,得到第一文本数据;采用语音情感编码器对第一语音数据...
  • 本发明提供一种语音交互方法、系统、设备、介质和程序产品,方法包括:根据客户端发送的会话建立请求,建立控制通道和媒体通道;通过控制通道接收包含语音识别参数的识别请求,并通过媒体通道接收第一音频流;基于语音识别参数对第一音频流进行语音识别,...
  • 本申请公开了一种语音合成方法及相关装置,涉及语音合成技术领域,包括:获取待合成文本、用于定制目标发音人的主模态人设特征数据和辅模态人设特征数据,将各模态人设特征数据映射到多模态共享的语义嵌入空间,得到主模态对齐特征和辅模态对齐特征,并对...
  • 本申请提供了一种模型训练方法、图像上色方法、电子绘本和设备,包括:从样本图像集中获取每个样本上色对象对应的参考图像和目标图像;确定每个参考图像和每个目标图像各自的待上色区域;根据每个待上色区域训练区域映射模型,区域映射模型用于确定同一上...