一种数据处理方法及装置制造方法及图纸

技术编号:25915997 阅读:40 留言:0更新日期:2020-10-13 10:35
本发明专利技术公开了一种数据处理方法及装置,方法包括:分别对获取的原始图像数据和原始语音数据进行特征识别,得到对应于初始对象的初始特征图像数据和初始特征语音数据;对当前图像数据进行面部跟踪,并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配,则对所述当前对象进行语音跟踪,并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配;若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配,则对所述当前对象的当前语音数据进行语音识别。本发明专利技术实施例能够提高语音识别的流畅性和准确度。

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及信息处理
,尤其涉及一种数据处理方法及装置。
技术介绍
随着技术的发展,各个行业对于语音识别和图像识别的应用,都非常广泛。但是图像识别受到光照、人脸角度、遮挡等影响,精度不高,而语音识别受到各种噪声,多人等影响,精度也不高。所以,在实际应用中,将语音和图像结合,既可以分别提高两者的识别精度,也可以达到实时的应用需求。但是现有技术方案中,由于语音识别严重依赖于图像识别中的唇动检测,如果人脸检测不到,即停止语音识别,造成语音识别的不连续。因此如何更准确的利用音视频的信息来进行语音识别,在当前的图像语音识别技术系统中,成为研究重点。
技术实现思路
本专利技术实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种数据处理方法,包括:获取原始图像数据和原始语音数据;分别对所述原始图像数据和所述原始语音数据进行特征识别,得到对应于初始对象的初始特征图像数据和初始特征语音数据;对当前图像数据进行面部跟踪,并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配,则对所述当前对象进行语音跟踪,并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配;若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配,则对所述当前对象的当前语音数据进行语音识别。在一可实施方式中,若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据相匹配,则根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪。在一可实施方式中,所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪包括:若所述当前对象的面部跟踪结果中仅存在与所述初始对象的初始特征图像数据相匹配的一个对象数据时,则对所述当前对象的单人语音数据进行语音识别并存储。在一可实施方式中,所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪还包括:若所述当前对象的面部跟踪结果中存在与所述初始对象的初始特征图像数据相匹配的多个对象数据时,则对所述当前对象的当前语音数据进行语音分离,得到每一个所述当前对象的对应分离后语音数据,并对所述分离后语音数据进行语音识别。在一可实施方式中,所述对所述当前对象的当前语音数据进行语音分离包括:根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前语音数据进行语音分离。在一可实施方式中,通过波束成形根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前语音数据进行语音分离。在一可实施方式中,在所述判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配之前,所述方法还包括:根据所述初始特征图像数据和/或初始特征语音数据建立对象分类模型;则所述判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配包括:根据所述对象分类模型判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;所述判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配包括:根据所述对象分类模型判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配。在一可实施方式中,所述初始特征图像数据至少包括对应于初始对象的初始唇动特征数据;所述当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配包括:判断当前对象的面部跟踪结果是否与所述初始对象的初始唇动特征数据相匹配。在一可实施方式中,所述方法还包括:若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据不匹配,则结束对所述当前语音数据的语音识别。本专利技术实施例另一方面提供一种数据处理装置,包括:获取模块,用于获取原始图像数据和原始语音数据;特征识别模块,用于分别对所述原始图像数据和所述原始语音数据进行特征识别,得到对应于初始对象的初始特征图像数据和初始特征语音数据;面部跟踪模块,用于对当前图像数据进行面部跟踪,并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;第一语音跟踪模块,用于若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配,则对所述当前对象进行语音跟踪,并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配;语音识别模块,用于若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配,则对所述当前对象的当前语音数据进行语音识别。本专利技术实施例所提供的一种数据处理方法及装置,在语音识别过程中,遇到图像检测结果异常,也即图像检测结果显示当前对象与初始对象不匹配时,通过比对判断当前对象的语音跟踪结果是否与初始对象的初始特征语音数据相匹配来判断是否继续进行语音识别,克服了现有技术方案中,由于语音识别严重依赖于图像识别中的唇动检测,如果人脸检测不到,即停止语音识别,造成语音识别的不连续的问题,能够更准确的利用音视频的信息来进行语音识别,提高语音识别的流畅性、完整性和准确度,并有效的提升了用户体验感。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1为本专利技术一实施例所提供的一种数据处理方法的一种实现流程示意图;图2为本专利技术一实施例所提供的一种数据处理装置的一种组成结构图;图3为本专利技术一实施例所提供的一种数据处理装置的另一种组成结构图;图4为本专利技术一实施例所提供的一种数据处理装置的另一种具体组成结构图;图5为本专利技术一实施例所提供的一种数据处理装置的又一种具体组成结构图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取原始图像数据和原始语音数据;/n分别对所述原始图像数据和所述原始语音数据进行特征识别,得到对应于初始对象的初始特征图像数据和初始特征语音数据;/n对当前图像数据进行面部跟踪,并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;/n若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配,则对所述当前对象进行语音跟踪,并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配;/n若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配,则对所述当前对象的当前语音数据进行语音识别。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取原始图像数据和原始语音数据;
分别对所述原始图像数据和所述原始语音数据进行特征识别,得到对应于初始对象的初始特征图像数据和初始特征语音数据;
对当前图像数据进行面部跟踪,并判断当前对象的面部跟踪结果是否与所述初始对象的初始特征图像数据相匹配;
若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据不匹配,则对所述当前对象进行语音跟踪,并判断所述当前对象的语音跟踪结果是否与所述初始对象的初始特征语音数据相匹配;
若所述当前对象的语音跟踪结果与所述初始对象的初始特征语音数据相匹配,则对所述当前对象的当前语音数据进行语音识别。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若当前对象的面部跟踪结果与所述初始对象的初始特征图像数据相匹配,则根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪。


3.根据权利要求2所述的方法,其特征在于,所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪包括:
若所述当前对象的面部跟踪结果中仅存在与所述初始对象的初始特征图像数据相匹配的一个对象数据时,则对所述当前对象的单人语音数据进行语音识别并存储。


4.根据权利要求3所述的方法,其特征在于,所述根据所述当前对象的面部跟踪结果对所述当前对象进行单人模式或多人模式下的语音跟踪还包括:
若所述当前对象的面部跟踪结果中存在与所述初始对象的初始特征图像数据相匹配的多个对象数据时,则对所述当前对象的当前语音数据进行语音分离,得到每一个所述当前对象的对应分离后语音数据,并对所述分离后语音数据进行语音识别。


5.根据权利要求4所述的方法,其特征在于,所述对所述当前对象的当前语音数据进行语音分离包括:
根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前语音数据进行语音分离。


6.根据权利要求5所述的方法,其特征在于,通过波束成形根据所述初始特征语音数据和历史单人语音数据对所述当前对象的当前...

【专利技术属性】
技术研发人员:郭莉莉杨琳王旭阳徐培来柳杨
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1