科大讯飞股份有限公司专利技术

科大讯飞股份有限公司共有4602项专利

  • 本发明提供一种语音识别方法、系统、设备、介质及产品,涉及语音处理技术领域,其中方法包括:根据当前语音数据流中各语音片段的时频特征,对各所述语音片段进行下采样,得到待识别语音序列;对所述待识别语音序列中的各数据单元进行编码,并将编码完成的...
  • 本申请提供一种语音增强方法、装置、设备、介质及程序产品,该语音增强方法包括:对麦克风接收信号进行语音增强,获得第一增强信号;对第一增强信号中低频段的信号进行语音增强,获得第二增强信号;基于第一增强信号和第二增强信号,确定目标增强信号;对...
  • 本申请涉及一种清洁系统的引导机构及清洁系统,其中,清洁系统的引导机构包括垫体,垫体的前端设有引导面,引导面的前侧高度低于引导面的后侧高度;引导面沿左右方向设有第一防滑部和两组第二防滑部,第一防滑部位于两组第二防滑部之间,第一防滑部包括设...
  • 本发明涉及计算机视觉技术领域,提供了一种图像增强方法、装置、电子设备和存储介质,其中方法包括:基于目标图像进行边缘检测,得到轮廓特征;基于轮廓特征以及标签特征,对目标图像进行图像增强,得到目标增强图像;标签特征基于目标图像带有的目标检测...
  • 本发明提供一种下文数据的预测方法、装置、电子设备及存储介质,其中方法包括:获取上文数据;将上文数据输入终端设备中的下文预测模型,得到下文预测模型输出的下文预测结果;下文预测模型是在大语言模型的基础上,基于保留数据,对嵌入层的原始词典进行...
  • 本申请公开了一种基于大模型的交互方法、装置、相关设备及程序产品,通过识别本轮交互请求的语音对应的本轮交互文本,确定本轮交互请求的说话人角色信息。为避免大模型对人人对话、噪音等无效请求进行响应,调用大模型,指示大模型结合总交互人数、说话人...
  • 本申请提出一种水印添加方法、水印检测方法、水印处理装置以及计算机存储介质。所述水印添加方法包括:将用户交互内容与历史输出文字输入文本生成式大模型,获取原始文本概率分布;获取预设的概率转移矩阵;利用所述概率转移矩阵对所述原始文本概率分布进...
  • 本申请公开了一种虚拟人交互方法、装置、相关设备及计算机程序产品,涉及人工智能技术领域,本申请支持创建两个以上的虚拟人角色,可以响应虚拟人角色创建请求,根据角色标识创建两个以上的虚拟人角色,分别通过不同的虚拟人引擎生成虚拟人角色的视频流。...
  • 本申请提出一种目标检测方法、装置、系统、设备及程序产品,该方法包括:获取当前帧图像中目标区域的第一目标检测结果和至少一组第二目标检测结果,第一目标检测结果是基于当前帧图像确定的,当前帧图像由视觉传感器采集,第二目标检测结果是基于雷达传感...
  • 本申请提出一种语音识别方法、装置、设备和计算机程序产品,该方法能够从语音识别对象的图像中提取图像特征,从语音识别对象的音频中提取语音特征,其中图像特征包括唇部动作特征、手势特征以及面部表情特征。然后根据语音识别对象所处的光线条件和声学条...
  • 本申请实施例提供了一种语音指令的流式识别方法、装置、计算机可读存储介质以及电子设备,涉及人工智能技术领域。该方法包括:对待处理音频进行语音活动检测,以确定待处理音频中的语音活动子段落,其中,语音活动子段落为经检测依次得到的起始状态和准结...
  • 本发明涉及计算机技术领域,提供一种错字识别方法及装置,基于目标文字的图像特征与各元素原型之间的匹配度,确定目标文字所包含各类元素原型的数量,元素原型指构成文字的基本单元;基于图像特征以及各类元素原型的数量,对目标文字进行元素分解,得到目...
  • 本申请公开了一种题目解答方法及相关装置,涉及大语言模型技术领域,本申请提供的,预先训练得到的具备发现待解答的题目与相似题之间的关联,并利用相似题进行解答的能力的大语言模型作为答题模型,在获取待解答的题目之后,先确定题目对应的相似题,以及...
  • 本申请提供了一种拾音模块、录音笔及拾音方法,拾音模块包括基体、全向麦克风、定向麦克风组件以及驱动组件,基体设置有控制单元;多个全向麦克风分散设置于基体上,且均与控制单元信号连接,以能向控制单元传递声源信息;定向麦克风组件转动设置于基体上...
  • 本申请提供一种扫地机器人及控制方法、装置、设备及产品,该方法包括:响应于用户通过肢体动作下发的清扫指令,获取包括用户的RGB图像、深度相机点云和激光雷达点云;根据RGB图像和深度相机点云,确定用户和扫地机器人之间的间隔距离,与预设距离的...
  • 本申请公开了一种语音合成生成方法、电子设备和存储介质。该方法包括:获取初始语音数据对应的初始语音特征和初始韵律特征;将所述初始语音特征和所述初始韵律特征进行拼接,得到初始待加噪对象;对所述初始待加噪对象进行加噪,得到加噪对象;将所述加噪...
  • 本申请提出一种语音交互方法、装置、设备、芯片、介质及产品,应用于车辆语音技术领域。其中,该语音交互方法包括:获取语音指令;获取语音指令的上下文信息,上下文信息包括当前的车辆状态信息和历史对话信息,历史对话信息包括车载语音系统在过去时间的...
  • 本发明提供一种语音合成方法及装置,所述方法包括:基于编码器中的当前自注意力模块,对上一自注意力模块输出的上一文本特征进行关键信息提取,确定当前文本特征;基于解码器中与当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出...
  • 本申请公开了一种语音处理方法、电子设备和存储介质。该方法包括获取多通道语音数据;对所述多通道语音数据进行处理,得到空间特征和谱特征;对所述空间特征进行时频建模,得到空间时频特征,并对所述谱特征进行时频建模,得到谱时频特征;对所述空间时频...
  • 本发明提供一种对话模型训练方法、对话方法、系统、设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,得到当前样本回...