一种数据处理方法及装置制造方法及图纸

技术编号：25915997 阅读：40 留言：0更新日期：2020-10-13 10:35

本发明专利技术公开了一种数据处理方法及装置，方法包括：分别对获取的原始图像数据和原始语音数据进行特征识别，得到对应于初始对象的初始特征图像数据和初始特征语音数据；对当前图像数据进行面部跟踪，并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配；若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配，则对所述当前对象进行语音跟踪，并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配；若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配，则对所述当前对象的当前语音数据进行语音识别。本发明专利技术实施例能够提高语音识别的流畅性和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及信息处理
，尤其涉及一种数据处理方法及装置。
技术介绍
随着技术的发展，各个行业对于语音识别和图像识别的应用，都非常广泛。但是图像识别受到光照、人脸角度、遮挡等影响，精度不高，而语音识别受到各种噪声，多人等影响，精度也不高。所以，在实际应用中，将语音和图像结合，既可以分别提高两者的识别精度，也可以达到实时的应用需求。但是现有技术方案中，由于语音识别严重依赖于图像识别中的唇动检测，如果人脸检测不到，即停止语音识别，造成语音识别的不连续。因此如何更准确的利用音视频的信息来进行语音识别，在当前的图像语音识别技术系统中，成为研究重点。
技术实现思路
本专利技术实施例为了有效克服现有技术所存在的上述缺陷，创造性地提供一种数据处理方法，包括：获取原始图像数据和原始语音数据；分别对所述原始图像数据和所述原始语音数据进行特征识别，得到对应于初始对象的初始特征图像数据和初始特征语音数据；对当前图像数据进行面部跟踪，并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配；若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配，则对所述当前对象进行语音跟踪，并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配；若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配，则对所述当前对象的当前语音数据进行语音识别。在一可实施方式中，若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据相匹配，则根据所述当前对象的面...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取原始图像数据和原始语音数据；/n分别对所述原始图像数据和所述原始语音数据进行特征识别，得到对应于初始对象的初始特征图像数据和初始特征语音数据；/n对当前图像数据进行面部跟踪，并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配；/n若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配，则对所述当前对象进行语音跟踪，并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配；/n若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配，则对所述当前对象的当前语音数据进行语音识别。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取原始图像数据和原始语音数据；
分别对所述原始图像数据和所述原始语音数据进行特征识别，得到对应于初始对象的初始特征图像数据和初始特征语音数据；
对当前图像数据进行面部跟踪，并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配；
若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配，则对所述当前对象进行语音跟踪，并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配；
若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配，则对所述当前对象的当前语音数据进行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据相匹配，则根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪包括：
若所述当前对象的面部跟踪结果中仅存在与所述初始对象的初始特征图像数据相匹配的一个对象数据时，则对所述当前对象的单人语音数据进行语音识别并存储。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪还包括：
若所述当前对象的面部跟踪结果中存在与所述初始对象的初始特征图像数据相匹配的多个对象数据时，则对所述当前对象的当前语音数据进行语音分离，得到每一个所述当前对象的对应分离后语音数据，并对所述分离后语音数据进行语音识别。

5.根据权利要求4所述的方法，其特征在于，所述对所述当前对象的当前语音数据进行语音分离包括：
根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前语音数据进行语音分离。

6.根据权利要求5所述的方法，其特征在于，通过波束成形根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前...

【专利技术属性】
技术研发人员：郭莉莉，杨琳，王旭阳，徐培来，柳杨，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人