The invention provides a method and a system for acquiring voice data, including: when a user makes a voice call, the voice data stream transmitted in real time in the intelligent terminal system is saved, the input voice data stream of the microphone is saved as the first voice data, and the output voice data stream of the receiver is saved as the second voice data; If the first speech data and the second speech data meet the training requirements of the speech recognition model, continue to judge whether the first speech data is from the application object of the speech recognition model, if so, mark the first speech data as the application object speech data, and mark the second speech data as the non-application object speech data. If not, the first voice data and the second voice data are marked as non application object voice data. Based on the method of the present invention, by improving the speech acquisition method, the burden of user training speech recognition model is reduced, and the user experience is improved.
【技术实现步骤摘要】
语音数据的获取方法和系统
本专利技术涉及人工智能领域,特别涉及一种语音数据的获取方法和系统。
技术介绍
移动终端语音识别分为语义识别和说话人识别两大类说话人识别通常称为声纹识别。一般分为文本相关(Text-dependent)和文本不相关(Text-independent)两类。文本相关的语音识别通常要求用户重复跟读固定词句2-3遍。以记录相关的特征信息作为登记(Enroll)。使用时,同样要求用户念读同样的固定词句用以语音判别(Predict)。非文本相关的语音识别则不要求用户跟读固定的语句。用户通过输入大量的语音数据作为机器学习的训练(Train),用户的特征信息在大量数据的训练下获得高度的提纯。用以训练的语音数据需要包含本用户的语音数据(语音识别模型的应用对象)和其他人的语音数据。语音判别时也不需要念读固定词句。正常的语音数据就可以用来语音判别。现有技术中,移动智能终端对语音识别尚不能进行用户身份的区分,对不同用户的声音特征值没有区分,导致同一台移动智能终端可以同时为不同用户的语音指令服务,保密性和专属性较差。以语音助手为例,现有移动智能终端在启用语音助手服务时都需要有一个固定的唤醒过程。这是文本相关语音识别的缺陷,不能够脱离固定文本的限制,不能够做到对本用户(应用对象)任何的语音指令快速的响应。所有的语音指令都需要在语音助手被唤醒后才可以使用。任何用户都可以通过固定词句唤醒语音助手,并发出语音指令,语音助手无法对用户身份做语音识别,全部的语音指令都会被执行。非文本相关的语音识别利用了机器学习技术,通过建立完整的学习模型,大量的语音数据输入训练来获得 ...
【技术保护点】
1.一种语音数据的获取方法,其特征在于,所述语音数据用于训练语音识别模型,所述方法包括以下步骤:步骤A‑1:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A‑2:检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A‑3;步骤A‑3:判断所述第一语音数据是否来自所述语音识别模型的应用对象,若是,执行步骤A‑4,若否,执行步骤A‑5;步骤A‑4:将所述第一语音数据标记为应用对象语音数据,将所述第二语音数据标记为非应用对象语音数据,所述应用对象语音数据用于所述语音识别模型中应用对象的语音特征学习;所述非应用对象语音数据用于所述语音识别模型中非应用对象的语音特征学习;步骤A‑5:将所述第一语音数据和第二语音数据标记为所述非应用对象语音数据。
【技术特征摘要】
1.一种语音数据的获取方法,其特征在于,所述语音数据用于训练语音识别模型,所述方法包括以下步骤:步骤A-1:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A-2:检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A-3;步骤A-3:判断所述第一语音数据是否来自所述语音识别模型的应用对象,若是,执行步骤A-4,若否,执行步骤A-5;步骤A-4:将所述第一语音数据标记为应用对象语音数据,将所述第二语音数据标记为非应用对象语音数据,所述应用对象语音数据用于所述语音识别模型中应用对象的语音特征学习;所述非应用对象语音数据用于所述语音识别模型中非应用对象的语音特征学习;步骤A-5:将所述第一语音数据和第二语音数据标记为所述非应用对象语音数据。2.根据权利要求1所述的方法,其特征在于,在所述步骤A-2中,所述若是,执行步骤A-3包括:若是,则对所述第一语音数据和第二语音数据的语音进行语音清洗后,执行步骤A-3。3.根据权利要求1所述的方法,其特征在于,所述将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据包括:步骤A-11:将麦克风的输入语音数据流保存为第三语音数据,将听筒的输出语音数据流保存为第四语音数据,执行步骤A-12和步骤A-13;步骤A-12:当所述第三语音数据达到预设时长时,令第一语音数据等于所述第三语音数据,同时令所述第三语音数据为空,执行步骤A-2,同时返回步骤A-11;步骤A-13:当所述第四语音数据的语音达到预设时长时,令第二语音数据等于所述第四语音数据,同时令所述第四语音数据为空,执行步骤A-2,同时返回步骤A-11。4.根据权利要求1所述的方法,其特征在于,所述步骤A-3还包括:步骤A-31:利用所述语音识别模型判断所述第一语音数据是否来自语音识别模型的应用对象,并输出所述结果的置信度;如果所述置信度小于阈值,则执行步骤A-32;如果所述判断结果是所述语音识别模型的应用对象且所述置信度大于等于阈值,则执行步骤A-4;如果所述判断结果不是所述语音识别模型的应用对象且所述置信度大于等于阈值,则执行步骤A-5;步骤A-32:在本次语音通话中,用户是否已确认身份,如果否,让用户确认是否是所述语音识别模型的应用对象,并记录用户确认结果,如果是语音识别模型的应用对象,执行步骤A-4,如果不是语音识别模型的应用对象,执行步骤A-5。5.根据权利要求1所述的方法,其特征在于,所述检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求包括:检测所述第一语音数据和第二语音数据中是否包含非静音特征,如果否,则不符合模型训练要求,如果是,则继续检测所述第一语音数据和第二语音数据中的语音是否清晰,如果不清晰,也不符...
【专利技术属性】
技术研发人员:谢晖,
申请(专利权)人:三星电子中国研发中心,三星电子株式会社,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。