科大讯飞股份有限公司专利技术

科大讯飞股份有限公司共有4602项专利

  • 本申请公开了一种图像中文本的处理方法及相关装置,涉及图像处理技术领域,图像中文本的处理方法包括:获取包含文本的目标图像;对目标图像进行文本行属性检测,得到目标图像中文本行的文本行属性;对目标图像中的文本行进行文字属性识别,得到目标图像中...
  • 本申请提供一种语音合成方法、装置、设备、介质及产品,该方法包括:获取目标文本对应的音素序列和离散声学特征序列;并通过预先训练的声学模型根据音素序列和离散声学特征序列进行语音合成,得到目标文本对应的语音信号;其中,声学模型根据训练文本对应...
  • 本申请提出一种音频分离方法、人声提取方法、音频处理系统、电子设备及计算机程序产品,该方法包括获取源自音频采集设备的待处理数据,其中,所述待处理数据包括:所述音频采集设备录制的多声源音频数据以及所述音频采集设备录制所述多声源音频数据过程中...
  • 本申请公开了一种相机模糊检测方法及相关装置、设备和存储介质,其中,相机模糊检测方法包括:输入待检测图像至DDPM模型,以获取DDPM模型中图像编码网络输出的编码特征和DDPM模型中噪声预测网络内解码器输出的解码特征;基于编码特征和解码特...
  • 本申请公开了一种问答对生成方法、装置、存储介质及设备,该方法包括:首先根据文本语料数据生成预设格式的第一目标问题文本和第一目标答案文本;然后利用第一目标问题文本构建第一prompt,输入至预设的大语言模型,对第一目标问题文本进行改写,得...
  • 本申请公开了一种语音分离方法、装置、存储介质及设备,该方法包括:首先获取待分离的混合语音和目标视频;并提取混合语音的声学特征;然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型,得到目标用户的唇形特征;接着将混合...
  • 本发明提供一种音效生成方法及系统,该方法包括:获取目标文本数据;将所述目标文本数据输入至音效描述生成微调模型,得到由所述音效描述生成微调模型输出的所述目标文本数据中的目标音效内容描述信息对应的音效语音数据;其中,所述音效描述生成微调模型...
  • 本发明提供一种语音分离方法、装置、系统、电子设备和存储介质,其中方法包括:基于目标车辆上多个音区的语音信号的频谱信息和相位信息,对多个音区的语音信号进行音区间语音分离和音区内语音分离;基于音区间语音分离得到的音区间分离结果和音区内语音分...
  • 本发明提供一种设备状态识别方法、装置、电子设备和存储介质,其中方法包括:对待测设备的音频数据进行特征提取,得到音频特征,并对所述待测设备的图像数据进行特征提取,得到图像特征;将所述音频特征和所述图像特征输入至设备状态识别模型,得到所述设...
  • 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:基于用户的语音合成偏好,从多个语音合成模型中选取目标语音合成模型,基于待合成文本,应用目标语音合成模型进行语音合成,得到符合语音合成偏好的合成语音;每一语音合成模型基于...
  • 本发明提供一种离线个性化声纹学习方法及说话人分离方法,涉及语音处理技术领域,在设备端确定内置的通用声纹识别模型和目标通用声纹学习数据,并获取个性化声纹学习数据;利用训练数据和个性化声纹学习数据,对通用声纹识别模型进行元学习,得到初始个性...
  • 本申请实施例提供了一种语音同传方法、装置、计算机可读存储介质以及电子设备,涉及人工智能技术领域。该方法包括:获取待处理音频中第i个语音片段对应的第i语音特征向量;将第i语音特征向量输入经过训练的大语言模型,以通过大语言模型对第i语音特征...
  • 本申请公开了一种训练数据构建方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:基于目标行业的行业描述和业务需求,生成目标行业的数据库信息;对应预设的多个问题类型中的每个问题类型,根据该问题类型,以及上述数据库信息,生成该...
  • 本发明提供一种碰撞检测方法、装置及车辆,所述方法包括:从行驶区域的相邻帧图像中确定车辆的关联物体;基于各帧图像中关联物体的像素宽度,以及各帧图像中关联物体与车辆之间的距离,预测车辆与关联物体的碰撞时刻;基于车辆在目标时长内的运动轨迹以及...
  • 本发明提供一种语音识别评估方法、装置、电子设备和存储介质,属于自然语言处理技术领域,其中方法包括:获取目标语音的语音识别文本和语音识别文本标签;对语音识别文本和语音识别文本标签进行翻译,得到语音识别文本的第一译文和语音识别文本标签的第二...
  • 本技术涉及照明AR或VR眼镜技术领域,提供一种眼镜,包括:眼镜本体、摄像头、滑盖;眼镜本体设有安装孔和滑槽;摄像头设置于安装孔;滑盖可滑动地设置于滑槽,在滑盖位于滑槽的第一位置,滑盖覆盖于摄像头;在滑盖位于滑槽的第二位置,摄像头能够拍摄...
  • 本技术提供一种电子设备传感器性能测试装置,涉及传感器测试技术领域,包括:光源、测试卡、第一支架、第二支架、样品台和移动机构,光源和测试卡设置在第一支架上,第一支架连接至第二支架,样品台连接至第二支架,移动机构能够驱动样品台靠近或远离第一...
  • 本发明提供一种语音解耦方法、装置、电子设备、存储介质和程序产品,涉及音频处理技术领域。方法包括:将待解耦语音数据分别输入至音色编码器和韵律编码器,得到音色编码器输出的解耦音色信息,以及韵律编码器输出的解耦韵律信息;其中,第一重构损失是基...
  • 本申请公开了一种模型训练方法及相关装置,应用于机器人技术领域,模型训练方法包括:获取训练数据,对训练数据叠加噪声;利用数据生成模型,从带噪声的训练数据中提取主成分信息,依据主成分信息进行数据重构;将重构数据输入强化学习模型进行训练;根据...
  • 本发明涉及计算机技术领域,提供一种解码网络的插词方法、装置、电子设备和存储介质,方法包括:确定待插入槽及其对应的候选词;在所述待插入槽包括重复出现的多个相同槽的情况下,将所述多个相同槽对应的候选词复用为同一个候选词节点;将所述候选词节点...