语音数据的获取方法和系统技术方案

技术编号:18897328 阅读:23 留言:0更新日期:2018-09-08 12:20
本发明专利技术提供一种语音数据的获取方法和系统,包括:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;检测第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,继续判断第一语音数据是否来自语音识别模型的应用对象,若是,将第一语音数据标记为应用对象语音数据,将第二语音数据标记为非应用对象语音数据;若否,将第一语音数据和第二语音数据标记为非应用对象语音数据。基于本发明专利技术的方法,通过改善语音的获取方法,减轻用户训练语音识别模型的负担,提高了用户体验。

Method and system for acquiring voice data

The invention provides a method and a system for acquiring voice data, including: when a user makes a voice call, the voice data stream transmitted in real time in the intelligent terminal system is saved, the input voice data stream of the microphone is saved as the first voice data, and the output voice data stream of the receiver is saved as the second voice data; If the first speech data and the second speech data meet the training requirements of the speech recognition model, continue to judge whether the first speech data is from the application object of the speech recognition model, if so, mark the first speech data as the application object speech data, and mark the second speech data as the non-application object speech data. If not, the first voice data and the second voice data are marked as non application object voice data. Based on the method of the present invention, by improving the speech acquisition method, the burden of user training speech recognition model is reduced, and the user experience is improved.

【技术实现步骤摘要】
语音数据的获取方法和系统
本专利技术涉及人工智能领域,特别涉及一种语音数据的获取方法和系统。
技术介绍
移动终端语音识别分为语义识别和说话人识别两大类说话人识别通常称为声纹识别。一般分为文本相关(Text-dependent)和文本不相关(Text-independent)两类。文本相关的语音识别通常要求用户重复跟读固定词句2-3遍。以记录相关的特征信息作为登记(Enroll)。使用时,同样要求用户念读同样的固定词句用以语音判别(Predict)。非文本相关的语音识别则不要求用户跟读固定的语句。用户通过输入大量的语音数据作为机器学习的训练(Train),用户的特征信息在大量数据的训练下获得高度的提纯。用以训练的语音数据需要包含本用户的语音数据(语音识别模型的应用对象)和其他人的语音数据。语音判别时也不需要念读固定词句。正常的语音数据就可以用来语音判别。现有技术中,移动智能终端对语音识别尚不能进行用户身份的区分,对不同用户的声音特征值没有区分,导致同一台移动智能终端可以同时为不同用户的语音指令服务,保密性和专属性较差。以语音助手为例,现有移动智能终端在启用语音助手服务时都需要有一个固定的唤醒过程。这是文本相关语音识别的缺陷,不能够脱离固定文本的限制,不能够做到对本用户(应用对象)任何的语音指令快速的响应。所有的语音指令都需要在语音助手被唤醒后才可以使用。任何用户都可以通过固定词句唤醒语音助手,并发出语音指令,语音助手无法对用户身份做语音识别,全部的语音指令都会被执行。非文本相关的语音识别利用了机器学习技术,通过建立完整的学习模型,大量的语音数据输入训练来获得高度提纯的用户特征信息及模型参数。基于训练好的模型,用户可以通过任意的语音输入来实现高度正确率的说话人语音识别,不受固定文本的限制。但是在移动智能终端上实现非文本相关的语音识别,需要获取大量的登记人和非登记人的语音数据。训练的过程漫长而枯燥。对用户的使用体验是很大的挑战。用户不希望花费时间和精力输入语音数据。另外获取非语音识别模型的应用对象的语音数据对终端用户来说也是一个尴尬的问题。没有充足的训练数据就无法达到识别的高准确率。所以现有的移动智能终端还没有出现非文本相关的语音识别系统。针对上述问题,特别是终端应用的非文本语音识别模型时语音数据的获取方法,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供一种语音数据的获取方法和系统,通过改善语音数据的获取过程,减轻用户负担。本专利技术提供一种语音数据的获取方法,语音数据用于训练语音识别模型,该方法包括步骤A-1:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A-2:检测第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A-3;步骤A-3:判断第一语音数据是否来自语音识别模型的应用对象,若是,执行步骤A-4,若否,执行步骤A-5;步骤A-4:将第一语音数据标记为应用对象语音数据,将第二语音数据标记为非应用对象语音数据,应用对象语音数据用于语音识别模型中应用对象的语音特征学习;非应用对象语音数据用于语音识别模型中非应用对象的语音特征学习;步骤A-5:将第一语音数据和第二语音数据标记为非应用对象语音数据。本专利技术还提供一种语音数据的获取系统,语音数据用于训练语音识别模型,该系统包括:保存模块:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;检测模块:检测第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行用户判断模块;用户判断模块:判断第一语音数据是否来自语音识别模型的应用对象,若是则执行语音对象标记模块1,若否则执行语音对象标记2;语音对象标记1:将第一语音数据标记为应用对象语音数据,将第二语音数据标记为非应用对象语音数据,应用对象语音数据用于语音识别模型中应用对象的语音特征学习;非应用对象语音数据用于语音识别模型中非应用对象的语音特征学习;语音对象标记2:将第一语音数据和第二语音数据标记为非应用对象语音数据。本专利技术通过保存用户语音通话时的语音数据,将麦克风的输入语音数据(第一语音数据)用于语音识别模型中应用对象的语音特征学习,将听筒的输出语音数据(第二语音数据)用于语音识别模型中非应用对象的语音特征学习,在移动智能终端后台以“静默”的方式将训练语音数据传递给语音识别模型,用户无需做枯燥繁杂的输入工作,减轻了用户的训练负担,提高了用户体验。同时本申请的方法和系统可应用于任一基于神经网络的语音识别模型,适用范围广。基于本申请的语音数据获取方法和获取系统,使得非文本相关的语音识别可以在移动智能终端上得以实现,突破现有的文本相关语音识别的限制,可以让终端更智能理解各个用户的特征、使用习惯,增强专属性和安全性。附图说明图1为本专利技术语音数据的获取方法的流程图;图2为图1的一个实施例;图3为本专利技术语音数据的获取系统的结构图;图4为图3的一个实施例。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。图1为本专利技术语音数据的获取方法的流程图,包括以下步骤:步骤A-1(S101):当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A-2(S102):检测第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A-3;步骤A-3(S103):判断第一语音数据是否来自语音识别模型的应用对象,若是,执行步骤A-4,若否,执行步骤A-5;步骤A-4(S104):将第一语音数据标记为应用对象语音数据,将第二语音数据标记为非应用对象语音数据,应用对象语音数据用于语音识别模型中应用对象的语音特征学习;非应用对象语音数据用于语音识别模型中非应用对象的语音特征学习;步骤A-5(S105):将第一语音数据和第二语音数据标记为非应用对象语音数据。在步骤A-1中,语音通话不仅包括音频通话,也包含VoIP、VoLTE等视频通话;同时包括其他即时通讯app的实时音视频通话,如微信的“视频聊天”或“语音聊天”。当用户启动语音通话,即触发执行图1的方法。应用于微信、QQ时,当检测到相应的动作,如“视频聊天”或“语音聊天”按钮按下或生效,即触发执行图1的方法。步骤A-1保存语音数据流的工作,可以设置在移动智能终端操作系统中的硬件设备操作层,当用户开始语音通话时,在系统的硬件操作层,实时备份并保存麦克风的输入语音数据和听筒的输出语音数据,其中,麦克风的输入语音数据代表终端用户的语音数据,听筒的输出语音数据代表对端实时传送给终端用户的语音数据。以安卓系统为例,硬件设备操作层为AndroidHAL,通话的状态判断可以参考AudioHAL中tiny_audio_device中的call_connected的相关属性,当adev->call_connected为真,表示用于开启并处于语音通话中。在AudioHAL中,当audio_hw_device为A本文档来自技高网
...

【技术保护点】
1.一种语音数据的获取方法,其特征在于,所述语音数据用于训练语音识别模型,所述方法包括以下步骤:步骤A‑1:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A‑2:检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A‑3;步骤A‑3:判断所述第一语音数据是否来自所述语音识别模型的应用对象,若是,执行步骤A‑4,若否,执行步骤A‑5;步骤A‑4:将所述第一语音数据标记为应用对象语音数据,将所述第二语音数据标记为非应用对象语音数据,所述应用对象语音数据用于所述语音识别模型中应用对象的语音特征学习;所述非应用对象语音数据用于所述语音识别模型中非应用对象的语音特征学习;步骤A‑5:将所述第一语音数据和第二语音数据标记为所述非应用对象语音数据。

【技术特征摘要】
1.一种语音数据的获取方法,其特征在于,所述语音数据用于训练语音识别模型,所述方法包括以下步骤:步骤A-1:当用户进行语音通话时,保存智能终端系统内实时传输的语音数据流,将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据;步骤A-2:检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求,若是,执行步骤A-3;步骤A-3:判断所述第一语音数据是否来自所述语音识别模型的应用对象,若是,执行步骤A-4,若否,执行步骤A-5;步骤A-4:将所述第一语音数据标记为应用对象语音数据,将所述第二语音数据标记为非应用对象语音数据,所述应用对象语音数据用于所述语音识别模型中应用对象的语音特征学习;所述非应用对象语音数据用于所述语音识别模型中非应用对象的语音特征学习;步骤A-5:将所述第一语音数据和第二语音数据标记为所述非应用对象语音数据。2.根据权利要求1所述的方法,其特征在于,在所述步骤A-2中,所述若是,执行步骤A-3包括:若是,则对所述第一语音数据和第二语音数据的语音进行语音清洗后,执行步骤A-3。3.根据权利要求1所述的方法,其特征在于,所述将麦克风的输入语音数据流保存为第一语音数据,将听筒的输出语音数据流保存为第二语音数据包括:步骤A-11:将麦克风的输入语音数据流保存为第三语音数据,将听筒的输出语音数据流保存为第四语音数据,执行步骤A-12和步骤A-13;步骤A-12:当所述第三语音数据达到预设时长时,令第一语音数据等于所述第三语音数据,同时令所述第三语音数据为空,执行步骤A-2,同时返回步骤A-11;步骤A-13:当所述第四语音数据的语音达到预设时长时,令第二语音数据等于所述第四语音数据,同时令所述第四语音数据为空,执行步骤A-2,同时返回步骤A-11。4.根据权利要求1所述的方法,其特征在于,所述步骤A-3还包括:步骤A-31:利用所述语音识别模型判断所述第一语音数据是否来自语音识别模型的应用对象,并输出所述结果的置信度;如果所述置信度小于阈值,则执行步骤A-32;如果所述判断结果是所述语音识别模型的应用对象且所述置信度大于等于阈值,则执行步骤A-4;如果所述判断结果不是所述语音识别模型的应用对象且所述置信度大于等于阈值,则执行步骤A-5;步骤A-32:在本次语音通话中,用户是否已确认身份,如果否,让用户确认是否是所述语音识别模型的应用对象,并记录用户确认结果,如果是语音识别模型的应用对象,执行步骤A-4,如果不是语音识别模型的应用对象,执行步骤A-5。5.根据权利要求1所述的方法,其特征在于,所述检测所述第一语音数据和第二语音数据是否符合语音识别模型训练要求包括:检测所述第一语音数据和第二语音数据中是否包含非静音特征,如果否,则不符合模型训练要求,如果是,则继续检测所述第一语音数据和第二语音数据中的语音是否清晰,如果不清晰,也不符...

【专利技术属性】
技术研发人员:谢晖
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1