苏州思必驰信息科技有限公司专利技术

苏州思必驰信息科技有限公司共有720项专利

  • 本发明公开语音数据增强方法和装置,其中,一种语音数据增强方法,包括:语音数据增强方法,包括:将原始干净音频和带噪音频输入至嵌入提取器中,其中,所述带噪音频包括所述原始干净音频和噪声;获取所述嵌入提取器输出的干净嵌入和噪声嵌入;计算所述干...
  • 本发明公开一种说话者身份验证方法,包括:获取所述说话者的音频数据和面部图像数据;从所述音频数据中提取语音特征嵌入,从所述面部图像数据中提取面部特征嵌入;根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入,以用于进行说话者身份验证。本...
  • 本发明实施例提供一种普通话和四川话的混合语音识别模型的训练方法。该方法包括:确定混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐,确定为训练用的输入数据;输入至N层公共中间层,第一任务层计算第一损失函数,第二任务层计算第二...
  • 本发明公开语音合成模型的改进方法和语音合成方法及装置,其中,一种语音合成模型的改进方法,包括:语音合成模型的改进方法,其中,所述语音合成模型包括受x‑vector控制的LSTM模块,所述方法包括:将经由x‑vector提取器提取的说话人...
  • 事件同指模型训练方法、事件同指消解方法。本发明公开一种事件同指模型训练方法,包括:采用初始有标注语料集对待训练事件同指模型进行初始训练,得到基准模型;采用所述基准模型对无标注语料集中的语料进行自动化标注得到扩增有标注语料集;采用所述初始...
  • 本发明公开一种文本语料扩增方法、装置、电子设备及存储介质,其中,所述方法包括:对原始语料数据预处理,得到原始语料数据的分词结果,基于所述原始语料数据的分词结果生成原始语料关键词;基于所述原始语料关键词、搜索引擎的语法、搜索引擎爬取数据的...
  • 本发明实施例提供一种用于重放攻击检测系统的数据泛化方法。该方法包括:基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测系统;将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至特征提取器,将特...
  • 本发明实施方式中提供一种语音对话方法,该方法能够在包括识别终端和远程语音识别服务端的系统中,识别终端和远程语音识别服务端能够数据通信。识别终端能够获取当前语音信息。上述语音对话方法包括:识别终端判断是否存在网络连接信息,若是,则在线识别...
  • 本发明公开一种语音识别单号的修复方法、装置、电子设备及存储介质,其中,所述方法包括:终端设备获取语音信号,并对所述语音信号进行语音识别以得到识别单号;所述终端设备将所述识别单号记录至数据库中,并判断所述识别单号是否为首次输入单号,若是,...
  • 本发明公开了一种声学模型的训练方法、装置以及计算机可读存储介质,包括获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;将云端声学模型中的模型参数信息更新至本地第一声学模型;基于声学训练...
  • 本发明实施例提供一种用于语音识别和语种分类的混合模型的训练方法。该方法包括:对带有文本标注、语种标注的混合训练音频数据进行特征提取和数据对齐,确定训练用的输入数据;将训练用的输入数据输入至N层中间层,基于语音识别层输出的语音识别结果和文...
  • 本发明公开一种语音合成方法,包括:从原始语音中获取基频信息和声学特征信息;根据基频信息生成脉冲串,并将脉冲串输入至谐波时变滤波器;将声学特征信息输入至神经网络滤波器评估器得到相应的脉冲响应信息;通过噪声生成器生成噪声信号;谐波时变滤波器...
  • 本发明公开一种语音识别文本连贯性处理方法和装置,其中,语音识别文本连贯性处理方法,包括:识别出语音识别文本中的至少一个关键信息的起始位置;从起始位置开始取多个句子,根据句子中的每个词或每个词组的第一词嵌入计算与句子对应的第二词嵌入,根据...
  • 本发明公开了一种用于实现移动终端与机动车建立蓝牙连接的蓝牙音控设备,涉及计算机技术领域。该蓝牙音控设备包括:无线连接模块,用于与移动终端建立无线连接;蓝牙模块,用于与移动终端建立蓝牙连接,以及基于无线连接,确定待连接机动车的蓝牙名称;根...
  • 本发明公开一种语音活性检测方法和装置,其中,语音活性检测方法,包括:将待检测音频输入帧级别VAD系统中进行帧级别的语音活性检测,获取所述帧级别VAD系统输出的第一音频;将所述第一音频输入句子级别VAD系统中进行句子级别的语音活性检测,获...
  • 本发明公开语音端点检测模型训练和使用方法及装置,其中,训练方法包括:将训练音频输入至广义上的语音端点检测模型中;经由所述广义上的语音端点检测模型检测所述训练音频中存在的多个音频事件,其中,所述多个音频事件包括人说话事件、静音事件以及至少...
  • 本发明公开一种用于上位机与下位机的语音交互方法和装置,其中,方法包括:响应于用户的输入音频,判断是否处于唤醒状态;若未处于唤醒状态,将所述输入音频发送至唤醒内核,其中,所述唤醒内核基于所述输入音频输出唤醒结果;接收所述唤醒结果,将所述唤...
  • 本发明公开中英语种混杂语音识别模型训练方法和装置,其中,所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络,所述方法包括:对所述中英双语模型进行预训练;将预训练好的中英双语模型用作所述双编码器多专家模型的初始化,其中,所述双...
  • 本发明公开一种说话者嵌入学习方法,包括:对说话者语音段进行帧级别特征提取,得到多个帧级别深度特征;对所述多个帧级别深度特征进行二阶池化处理得到段级别深度特征;采用仿射层将所述段级别深度特征转换为段级别说话者嵌入。本发明实施例在将帧级别深...
  • 本发明公开一种普通话和粤语混合语音识别模型训练方法,包括:采用N种语言的混合语音训练样本对多任务模型进行训练,多任务模型包括多个共享网络层和与多个共享网络层中的最后一层连接的对应于N种语言的N个任务神经网络层;将多个共享网络层的网络参数...