科大讯飞股份有限公司专利技术

科大讯飞股份有限公司共有4602项专利

  • 本发明提供一种音视频处理方法、装置、电子设备和存储介质,其中方法包括:将待处理的音视频流分次送入包含卷积层的神经网络处理系统进行计算,在经过卷积运算时,通过将历史输入数据与当前输入数据进行拼接,再基于预设掩码,对拼接数据进行掩码运算,以...
  • 本申请公开了一种音频文本强制对齐方法、装置、设备及可读存储介质。本方案中,在确定待对齐音频以及与待对齐音频对应的待对齐文本的音素标签序列之后,基于对齐路径中隶属于两个相邻单字的相邻两个音素标签之间包括预设停顿间隔标签,并且隶属于同一个单...
  • 本发明提供一种文本生成方法、装置、电子设备和存储介质,其中方法包括:获取第一文本;基于生成模型,生成与所述第一文本对应的初始片段;基于纠错模型,对所述初始片段进行纠错,得到纠错结果;基于所述纠错结果,从所述初始片段中确定目标片段,并返回...
  • 本申请公开了一种图像标注数据获取方法、目标检测模型训练方法、设备检测方法、装置、相关设备及计算机程序产品,本申请仅需要采集少量的待检测设备的第一图像,及对待检测设备上所展示的图标所拍摄的第二图像,其图像采集任务相比于现有技术大大降低。从...
  • 本申请公开了一种大语言模型人设私有化方法及相关装置,涉及模型训练技术领域,方法包括:根据设定的人设信息和创建的问答模版中的回答,针对问答模版中的问题生成符合人设信息的回答,得到问答模版中的问题对应的人设回答;根据问答模版中的问题以及对应...
  • 本发明涉及人工智能技术领域,提供一种知识问答方法、装置、电子设备和存储介质,其中方法包括:确定与待回答的提问文本相关的第一关联文本;基于所述第一关联文本,从预先构建的知识图谱中查询得到关联实体,并基于所述关联实体从预先构建的文本表示库中...
  • 本申请公开了一种提示音检测方法、装置、设备及可读存储介质,本方案中,在获取待进行提示音检测的语音之后,从语音中确定至少一个待检测语音片段,每个待检测语音片段对应一个说话对象。根据各个待检测语音片段与预设的待检测提示音的声纹相似度,确定各...
  • 本申请提出一种题库资源加工方法、装置、电子设备、存储介质及产品,该方法包括:对试题图像进行版面要素检测,确定试题图像对应的版面要素信息;版面要素信息包括:版面要素的类型、位置和内容;基于试题图像对应的版面要素信息和预先设置的阅读顺序,确...
  • 本申请公开了一种辅助车载乘客睡眠的方法、装置、相关设备及计算机程序产品,涉及汽车座舱音效技术领域,方案通过识别车内乘客是否存在主动睡眠的意图,当识别到乘客存在主动睡眠意图时,通过音频播放设备播放用于助眠的音频内容,从而营造良好的车内小憩...
  • 本申请公开了一种机器人及其地图分区方法、装置、可读存储介质及计算机程序产品,即便是针对复杂的大型场景,也可以通过图像传感器采集的二维图像识别出门槛区域,并且配合深度传感器采集的点云数据对该门槛区域进行精细化修正,得到更加准确的门槛区域,...
  • 本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样...
  • 本申请公开了一种语音识别方法、装置、相关设备及计算机程序产品,提供了一种基于转置的自注意力机制,可以先从第一维度(可以是通道维度或时间维度)对声学特征进行自注意力机制计算,对结果进行转置处理,之后沿第二维度(可以是时间维度或通道维度)对...
  • 本申请提出一种模型训练方法、说话人识别方法、装置、设备、介质及产品,该模型训练方法包括:在对声纹提取模型进行声纹身份预测训练的过程中,基于所述声纹提取模型的隐层声学特征,执行声学特征预测任务,得到声学特征预测结果;所述声学特征预测任务包...
  • 本申请公开了一种词序列语言模型优化方法、装置、设备及可读存储介质,先利用通用场景的语料训练得到通用词序列语言模型,以及利用特定领域场景的语料训练得到领域词序列语言模型,通过对对通用词序列语言模型和领域词序列语言模型进行融合,能够将通用词...
  • 本申请公开了一种课堂教学系统,应用于信息科技课程教学场景,系统包括教学终端及学生端,教学终端可以响应于教师的操作,将课程资源下发到学生端,该课程资源为与新课标中信息科技课程所规定的知识点相匹配的课程资源,学生端接收并展示课程资源,响应于...
  • 本申请提出一种试题答案文本的处理方法、装置、设备、存储介质及计算机程序产品,该方法包括:获取试题答案图像;其中,所述试题答案图像包括初始答案文本;从试题答案图像中分割出各个答案区域;其中,每一项答案各自对应一个答案区域;对各个所述答案区...
  • 本申请提供了语音识别方法、装置、设备、存储介质及程序产品,具体实现方案为:获取待识别语音和伪语音,其中,所述待识别语音为多通道音频,所述伪语音是与所述多通道音频的音频序列长度相同的音频;对所述待识别语音的各个通道音频中的每一音频帧,以及...
  • 本申请公开了一种角色消歧方法、系统和相关装置,该方法包括:获取待处理图;其中,所述待处理图的节点是基于多个待处理角色名得到的,所述待处理图的边是基于任意两个所述待处理角色名对应的待处理段落得到的,所述待处理段落中的两个所述待处理角色名间...
  • 本申请提供了一种听写批改方法、装置、存储介质及电子设备,涉及信息技术领域。该听写批改方法包括:获取P个听写项对应的作答结果、以及P个听写项各自对应的听写答案,P个听写项包括听写字和/或听写词,P为大于1的正整数;确定作答结果中包括的M个...
  • 本申请提供了一种口语问答评分方法、装置、设备、存储介质及程序产品,该方法包括:获取目标作答音频的声学特征和所述目标作答音频对应的属性信息,所述属性信息至少包括题目信息;根据所述声学特征和所述题目信息,对所述目标作答音频进行识别,得到识别...