The present disclosure relates to a description content identification method, device, electronic device, machine readable storage medium. A description content recognition method includes: acquiring the user's voice and the image of the description part during the user's presentation process; recognizing the collected voice data and image data separately; determining the content of the user's expression based on the recognition results of the voice data and the image data. It can be seen that in this implementation, the content of user's expression is determined by using voice data and image data, which overcomes the influence of noisy environment on speech recognition results, and is conducive to improving the accuracy of recognition results and user's experience.
【技术实现步骤摘要】
表述内容识别方法、装置、电子设备、机器可读存储介质
本公开涉及控制
,尤其涉及一种表述内容识别方法、装置、电子设备、机器可读存储介质。
技术介绍
目前,语音识别技术得到的迅速发展,开始应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。现有的语音设备上设置有麦克风阵列,通过麦克风阵列进行拾音,然后语音设备中处理器对语音数据进行降噪、语音识别以及自然语音处理,从而得到用户表述的内容。然而,当语音设备放置在嘈杂环境下或者用户有发音障碍时,语音设备识别用户表述内容的准确率大大降低,甚至无法有效识别出用户的表述内容。
技术实现思路
本公开提供一种表述内容识别方法、装置、电子设备、机器可读存储介质,以解决相关技术的不足。根据本公开实施例的第一方面,提供一种表述内容识别方法,包括:在用户表述过程中,对所述用户语音以及表述部位图像进行采集;对采集的语音数据以及图像数据分别进行识别;基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容。可选地,所述表述部位包括:口部;对采集的图像数据进行识别,包括:对采集的图像中口部进行识别定位;采用第一 ...
【技术保护点】
1.一种表述内容识别方法,其特征在于,包括:在用户表述过程中,对所述用户语音以及表述部位图像进行采集;对采集的语音数据以及图像数据分别进行识别;基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容。
【技术特征摘要】
1.一种表述内容识别方法,其特征在于,包括:在用户表述过程中,对所述用户语音以及表述部位图像进行采集;对采集的语音数据以及图像数据分别进行识别;基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容。2.根据权利要求1所述的表述内容识别方法,其特征在于,所述表述部位包括:口部;对采集的图像数据进行识别,包括:对采集的图像中口部进行识别定位;采用第一预设算法对采集图像中的口型变化进行唇语分析,得到识别的文字;或者,将采集图像中的口型与预设口型数据库中的口型数据进行匹配,得到识别的文字。3.根据权利要求1所述的表述内容识别方法,其特征在于,所述表述部位包括:手部;对采集的图像数据进行识别,包括:对采集的图像中手部进行识别定位;采用第二预设算法对采集图像中的手势变化进行手语分析,得到识别的文字;或者,将采集图像中的手势与预设手势动作数据库中的手势数据进行匹配,得到识别的文字。4.根据权利要求1所述的表述内容识别方法,其特征在于,所述表述部位包括:口部和手部;对采集的图像数据进行识别,包括:对采集的图像中口部和手部分别进行识别定位;采用第一预设算法对采集图像中的口型变化进行唇语分析,或者,将采集图像中的口型与预设口型数据库中的口型数据进行匹配,得到基于口部图像数据识别的第一文字;采用第二预设算法对采集图像中的手势变化进行手语分析,或者,将采集图像中的手势与预设手势动作数据库中的手势数据进行匹配,得到基于手部图像数据识别的第二文字;根据所述第一文字的识别准确率和所述第二文字的识别准确率,对所述第一文字和所述第二文字进行合成处理,得到识别的文字。5.根据权利要求1-4任一项所述的表述内容识别方法,其特征在于,基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容,包括:分别获取所述语音数据的识别结果和所述图像数据的识别结果的识别准确率;将识别准确率较高的识别结果确定为识别出的表述内容。6.根据权利要求1-4任一项所述的表述内容识别方法,其特征在于,基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容,包括:定位基准识别结果中的文字缺失区域;将辅助识别结果中与文字缺失区域对应区域的文字填充至所述文字缺失区域;将填充后的基准识别结果确定为识别出的表述内容;其中,基准识别结果为所述语音数据的识别结果和所述图像数据的识别结果中的一种,则另一种为辅助识别结果;文字缺失区域包括识别结果中识别准确率低于预设值或者无法识别出的文字对应的区域。7.一种表述内容识别装置,其特征在于,包括:数据采集模块,用于在用户表述过程中,对所述用户语音以及表述部位图像进行采集;数据识别模块,用于对采集的语音数据以及图像数据分别进行识别;内容确定模块,用于基于所述语音数据的识别结果和所述图像数据的识别结果,确定用户表述的内容。8.根据权利要求7所述的表述...
【专利技术属性】
技术研发人员:冯瑞丰,雷艳兵,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。