The invention discloses a method and a system for training and recognition model of intelligent terminal, which belongs to the field of speech recognition technology; method for obtaining initial speech signal flow; the initial sound signal stream and a preset model voiceprint matching, voice recognition, obtain successful flow, and outputs the recognition of speech flow; get the speaker's feedback speech flow; according to the preset algorithm for speaker segmentation and speaker clustering algorithm for speech signal feedback from the speaker's speech stream associated flow; to determine all the speech signal can be used as flow exists in the speech signal recognition object flow, and can be used as a speech signal recognition object recognition signal flow stream as output; the identification signal and a plurality of flow respectively. The initial recognition model of pre formed, obtain the initial recognition model matching success and recognition of signal flow; The identified signal stream is trained as an additional identification signal stream and updated according to the training sample for the initial identification model that matches the identified signal stream successfully.
【技术实现步骤摘要】
一种识别模型训练方法及系统以及智能终端
本专利技术涉及语音识别
,尤其涉及一种识别模型训练方法及系统以及智能终端。
技术介绍
声纹识别是一种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,因此可以通过建立识别模型来表征不同的个体,进而利用该识别模型识别不同的个体。目前识别模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上。一般而言,声纹训练无法自动识别进行训练,需要人为手动设定,训练过程繁琐,用户体验效果差,且声纹训练的语料越长,建立的特征模型越精确,识别准确率也就越高,但是这种模型建立的方式的实用性不强;相反地,声纹训练语料较短,能保证较好的实用性,但相对而言其训练生成的模型的识别准确率不高。而在实际应用中,例如应用到一些智能设备中进行语音操作的声纹识别时,既要求有较高的识别准确率,又要求训练语料不能太长,从而保证较好的实用性,则以现有技术中的声纹识别模型建立的技术方案难以实现上述目的。同样地,现有技术中,需要由用户手动多次录入一定时长的训练语料来辅助建立识别模型,因此会给用户较差的体验,不具备较高的实用性;同时,组合起来的训练语料的长度仍然有限,不能生成较精确的特征模型,识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高识别模型精确度,进而提高识别准确率是急需解决的问题。
技术实现思路
根据现有技术中存在的上述问题,现提供一种识别模型训练方法及系统以及智能终端的技术方案,具 ...
【技术保护点】
一种识别模型训练方法,其特征在于,所述方法包括:获取包含至少一个说话人的初始语音信号流;将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;获取所述说话人的反馈语音流;根据预设的说话人分割算法和说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流;判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;将所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型;将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新。
【技术特征摘要】
1.一种识别模型训练方法,其特征在于,所述方法包括:获取包含至少一个说话人的初始语音信号流;将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;获取所述说话人的反馈语音流;根据预设的说话人分割算法和说话人聚类算法,获取所述反馈语音流关联于所述说话人的所述语音信号流;判断所有所述语音信号流中是否存在能够作为识别对象的所述语音信号流,并将能够作为识别对象的所述语音信号流作为识别信号流输出;将所述识别信号流分别与预先形成的复数个初始识别模型进行匹配,获取与所述识别信号流匹配成功的所述初始识别模型;将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新。2.如权利要求1所述的识别模型训练方法,其特征在于,所述方法在获取包含至少一个说话人的初始语音信号流之前还包括:根据预设的所述训练样本建立复数个所述初始识别模型。3.如权利要求1或2所述的识别模型训练方法,其特征在于,根据所述说话人分割算法与所述说话人聚类算法,分别获取所述反馈语音流关联于所述说话人的所述语音信号流的方法具体包括:根据所述说话人分割算法,将所述反馈语音流分割成多个语音分段;根据所述说话人聚类算法,将多个所述语音分段进行聚类,生成关联于所述说话人的所述语音信号流。4.如权利要求1或2所述的识别模型训练方法,其特征在于,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。5.如权利要求3所述的识别模型训练方法,其特征在于,将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取匹配成功的所述识别信号流的方法具体包括:将所述说话人的所述识别信号流与复数个所述初始识别模型进行匹配,获取所述识别信号流与每个所述初始识别模型的匹配度;选取大于预设的匹配阈值的多个所述匹配度中最高的所述匹配度所对应的所述初始识别模型。6.如权利要求1,2和5中任意一项所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;以所述修正识别模型对所述初始识别模型进行更新。7.如权利要求3所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;以所述修正识别模型对所述初始识别模型进行更新。8.如权利要求4所述的识别模型训练方法,其特征在于,将所述识别信号流作为追加的识别信号流的训练样本,并依据所述训练样本对与所述识别信号流匹配成功的所述初始识别模型进行更新的方法具体包括:根据匹配成功的所述初始识别模型以及预设的训练样本,生成修正识别模型,预设的所述训练样本为生成所述初始识别模型的所述识别信号流;以所述修正识别模型对所述初始识别模型进行更新。9.一种识别模型训练系统,其特征在于,包括:获取单元、处理单元、判断单元、第一匹配单元、第二匹配单元以及模型更新单元;所述获取单元用于获取包含至少一个说话人的初始语音信号流并发送给与所述获取单元连接的所述第一匹配单元;所述第一匹配单元用于将所述初始语音信号流与一预设的声纹模型进行匹配,获取匹配成功的识别语音流,并输出所述识别语音流;所述获取单元还用于获取所述说话人的反馈语音流,并发送所述反馈语音流至与所述获取单元连接的所述处理单元;所述处理单元用于接收所述获取单元发送的所述反...
【专利技术属性】
技术研发人员:祝铭明,
申请(专利权)人:芋头科技杭州有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。