The invention provides a processing method, a device, a device and a computer readable storage medium for speech data. The embodiment of the invention of character recognition processing by image data output to the terminal, to obtain at least one image sequence of characters and the character of each image sequence at least one image sequence of characters in the screen position, and voice data input to the terminal in the speech recognition process, in order to obtain the speech sequence of characters then, the sequence of the at least one image sequence of characters in the voice and character sequence corresponding to the character image, as a sequence of characters, which can in the terminal on the screen, the character sequence position, simulated click operation, support functions without the need to rely on various related functions corresponding to the for voice service, but the image data output terminal input voice data at the same time, the corresponding string matching and voice data into. At the screen position of the string, the simulation click operation is performed to realize the terminal operation of any speech instruction, thus improving the reliability of the voice service.
【技术实现步骤摘要】
语音数据的处理方法、装置、设备及计算机可读存储介质
本专利技术涉及语音交互技术,尤其涉及一种语音数据的处理方法、装置、设备及计算机可读存储介质。
技术介绍
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用(Application,APP)。有些应用中会涉及一些语音服务,例如,百度地图等。目前的语音服务,基本都是一种功能级别的实现,它具有一个独立的语音交互模块,这个模块负责录音,并对录音进行识别,并进行自然语音理解生成语音指令,调用其他功能模块完成相关的功能。然而,目前的语音服务,完全依赖于各个相关功能所对应的功能模块对于语音服务的支持,如果某一个功能模块不支持语音服务,则无法基于语音服务实现该功能模块的相关功能,从而导致了语音服务的可靠性的降低。
技术实现思路
本专利技术的多个方面提供一种语音数据的处理方法、装置、设备及计算机可读存储介质,用以提高语音服务的可靠性。本专利技术的一方面,提供一种语音数据的处理方法,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每 ...
【技术保护点】
一种语音数据的处理方法,其特征在于,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。
【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。2.根据权利要求1所述的方法,其特征在于,所述对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置,包括:采用光学字符识别技术,对所述图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置。3.根据权利要求1所述的方法,其特征在于,所述对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列,包括:采用语音识别技术,对所述语音数据进行语音识别处理,以获得所述语音字符序列。4.根据权利要求1所述的方法,其特征在于,所述获得所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列,包括:根据所述至少一个图像字符序列和所述语音字符序列,获得所述每个图像字符序列与所述语音字符序列之间的相似度;根据所述每个图像字符序列与所述语音字符序列之间的相似度,获得相似度最高的图像字符序列;若最高相似度大于或等于预先设置的相似度阈值,将所述相似度最高的图像字符序列,作为所述匹配字符序列。5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作,包括:根据所述匹配字符序列的屏幕位置,获得在所述终端上的模拟点击位置;在所述模拟点击位置,进行模拟点击操作。6.一种语音数据的处理装置,其特征在于,包括:图像识别单元,用于对终端...
【专利技术属性】
技术研发人员:周志鹏,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。