语音信息处理系统和方法技术方案

技术编号：19879139 阅读：35 留言：0更新日期：2018-12-22 18:16

提供了一种使用语音识别方法生成用户行为的系统和方法。所述方法可以包括：获取包括与一个或以上说话者相关的语音数据的音频文件(610)，以及将所述音频文件分成一个或以上音频子文件，每个音频子文件包括至少两个语音段(620)。所述一个或以上音频子文件中的每一个可以与所述一个或以上说话者中的一个对应。所述方法可以进一步包括：获取与所述至少两个语音段中的每一个对应的时间信息和说话者识别信息(630)，并将所述至少两个语音段转换为至少两个文本段(640)。所述至少两个语音段中的每一个可以与所述至少两个文本段中的一个对应。所述方法可以进一步包括：基于所述至少两个文本段、时间信息和说话者识别信息生成第一特征信息(650)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语音信息处理系统和方法交叉引用本申请要求于2017年3月21日提交的中国专利申请No.201710170345.5的优先权，其全部内容通过引用并入本文。
本申请涉及语音信息处理，尤其涉及使用语音识别方法处理语音信息以生成用户行为的方法和系统。
技术介绍
语音信息处理(例如，语音识别方法)已广泛用于日常生活中。对于在线按需服务，用户可以通过将语音信息输入电子设备(例如，移动电话)来简单地提出他/她的请求。例如，用户(例如，乘客)可以通过他/她的终端(例如，移动电话)的麦克风以语音数据的形式提出服务请求。相应地，另一个用户(例如，司机)可以通过他/她的终端(例如，移动电话)的麦克风以语音数据的形式回复该服务请求。在一些实施例中，与说话者相关的语音数据可以反映说话者的行为，可以用于生成用户行为模型，该用户行为模型可以架起语音文件和与该语音文件中用户对应的用户行为之间的连接。但是，机器或计算机可能无法直接理解语音数据。因此，期望提供一种生成适合训练用户行为模型的特征信息的新语音信息处理方法。
技术实现思路
本申请的一个方面提供了一种语音识别系统。所述语音识别系统可以包括总线、...

【技术保护点】
1.一种语音识别系统，包括：至少一个存储设备，存储用于语音识别的一组指令；以及与所述至少一个存储设备通信的至少一个处理器，其中，当执行所述一组指令时，所述至少一个处理器用于：获取包括与一个或以上说话者相关的语音数据的音频文件；将所述音频文件分成一个或以上音频子文件，每个所述音频子文件包括至少两个语音段，其中，所述一个或以上音频子文件中的每一个与所述一个或以上说话者中的一个对应；获取与所述至少两个语音段中的每一个对应的时间信息和说话者识别信息；将所述至少两个语音段转换为至少两个文本段，其中，所述至少两个语音段中的每一个与所述至少两个文本段中的一个对应；以及基于所述至少两个文本段、所述时间信息和所...

【技术特征摘要】
【国外来华专利技术】2017.03.21 CN 20171017034551.一种语音识别系统，包括：至少一个存储设备，存储用于语音识别的一组指令；以及与所述至少一个存储设备通信的至少一个处理器，其中，当执行所述一组指令时，所述至少一个处理器用于：获取包括与一个或以上说话者相关的语音数据的音频文件；将所述音频文件分成一个或以上音频子文件，每个所述音频子文件包括至少两个语音段，其中，所述一个或以上音频子文件中的每一个与所述一个或以上说话者中的一个对应；获取与所述至少两个语音段中的每一个对应的时间信息和说话者识别信息；将所述至少两个语音段转换为至少两个文本段，其中，所述至少两个语音段中的每一个与所述至少两个文本段中的一个对应；以及基于所述至少两个文本段、所述时间信息和所述说话者识别信息生成第一特征信息。2.根据权利要求1所述的系统，其特征在于，将一个或以上麦克风安装在至少一个车厢中。3.根据权利要求1所述的系统，其特征在于，从单通道获取所述音频文件，以及为了将所述音频文件分成一个或以上音频子文件，逻辑电路用于执行语音分离，所述语音分离包括计算听觉场景分析或盲源分离中的至少一个。4.根据权利要求1所述的系统，其特征在于，与所述至少两个语音段中的每一个对应的时间信息包括所述语音段的起始时间和持续时间。5.根据权利要求1所述的系统，其特征在于，所述至少一个处理器进一步用于：获取初始模型；获取一个或以上用户行为，每个用户行为与所述一个或以上说话者中的一个对应；以及通过基于所述一个或以上用户行为和所述生成的第一特征信息训练所述初始模型来生成用户行为模型。6.根据权利要求5所述的系统，其特征在于，所述至少一个处理器进一步用于：获取第二特征信息；以及基于所述第二特征信息执行所述用户行为模型以生成一个或以上用户行为。7.根据权利要求1所述的系统，其特征在于，所述至少一个处理器用于：在将所述音频文件分成一个或以上音频子文件之前，去除所述音频文件中的噪音。8.根据权利要求1所述的系统，其特征在于，所述至少一个处理器用于：在将所述音频文件分成一个或以上音频子文件之后，去除所述一个或以上音频子文件中的噪音。9.根据权利要求1所述的系统，其特征在于，所述至少一个处理器进一步用于：在将所述至少两个语音段中的每一个转换为文本段之后，将所述至少两个文本段中的每一个切分为词语。10.根据权利要求1所述的系统，其特征在于，为了基于所述至少两个文本段、所述时间信息和所述说话者识别信息生成所述第一特征信息，所述至少一个处理器用于：基于所述文本段的时间信息对所述至少两个文本段进行排序；以及通过用所述相应的说话者识别信息标记每个所述排序的文本段来生成所述第一特征信息。11.根据权利要求1所述的系统，其特征在于，所述至少一个处理器进一步用于：获取所述一个或以上说话者的位置信息；以及基于所述至少两个文本段、所述时间信息、所述说话者识别信息和所述位置信息生成所述第一特征信息。12.一种在计算设备上实现的方法，所述计算设备具有存储用于语音识别的一组指令的至少一个存储设备，以及与所述至少一个存储设备通信的至少一个处理器，所述方法包括：获取包括与一个或以上说话者相关的语音数据的音频文件；将所述音频文件分成一个或以上音频子文件，每个所述音频子文件包括至少两个语音段，其中，所述一个或以上音频子文件中的每一个与所述一个或以上说话者中的一个对应；获取与所述至少两个语音段中的每一个对应的时间信息和说话者识别信息；将所述至少两个语音段转换为至少两个文本段，其中，所述至少两个语音段中的每一个与所述至少两个文本段中的一个对应；以及基于所述至少两个文本段、所述时间信息和所述说话者识别信息生成第一特征信息。13.根据权利要求12所述的方法，其特征在于，将一个或以上麦克风安装在至少一个车厢中，所述方法还包括：获取所述至少一个车厢的位置信息；以及基于所述至少两个文本段、所述时间信息、所述说话者识别信息和所述至少一个车厢的位置信息生成所述第一特征信息。14.根据权利要求12所述的方法，其特征在于，从单通道获取所述音频文件，以及将所述音频文件分成一个或以上音频子文件进一步包括执行语音分离，所述语音分离包括计算听觉场景分析或盲源分离。15.根据权利要求12所述的方法，其特征在于，与所述至少两个语音段中每一个对应的所述时间信息包括所述语音段的起始时间和持续时间。16.根据权利要求12所述的方法，进一步包括：获取初始模型；获取一个或以上用户行为，每个用户行为与所述一个或以上说话者中的一个对应；以及通过基于所述一个或以上用户行为和所述生成的第一特征信息训练所述初始模型来生成用户行为模型。17.根据权利要求16所述的方法，进一步包括：获取第二特征信息；以及基于所述第二特征信息执行所述用户行为模型以生成一个或以上用户行为。18.根据权利要求12所述的方法，进一步包括：在将所述音频文件分成一个或以上音频子文件之前，去除所述音频文件中的噪音。19.根据权利要求12所述的方法，进一步包括：在将所述音频文件分成一个或以上音频子文件之后，去除所述一个或以上音频子文件中的噪音。20.根据权利要求12所述的方法，进一步包括：在将所述至少两个语音段中的每一个转换为文本段之后，将所述至少两个文本段中的...

【专利技术属性】
技术研发人员：贺利强，李晓辉，万广鲁，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人