语音数据的处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:16780065 阅读:23 留言:0更新日期:2017-12-13 00:11
本发明专利技术提供一种语音数据的处理方法、装置、设备及计算机可读存储介质。本发明专利技术实施例通过对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置,以及对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列,进而将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列,使得能够在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作,无需依赖各个相关功能所对应的功能模块对于语音服务的支持,而是在终端输入语音数据的同时所输出的图像数据中,匹配与语音数据所对应的字符串,进而在该字符串的屏幕位置,进行模拟点击操作来实现任意语音指令的终端操作,从而提高了语音服务的可靠性。

Speech data processing methods, devices, devices and computer readable storage media

The invention provides a processing method, a device, a device and a computer readable storage medium for speech data. The embodiment of the invention of character recognition processing by image data output to the terminal, to obtain at least one image sequence of characters and the character of each image sequence at least one image sequence of characters in the screen position, and voice data input to the terminal in the speech recognition process, in order to obtain the speech sequence of characters then, the sequence of the at least one image sequence of characters in the voice and character sequence corresponding to the character image, as a sequence of characters, which can in the terminal on the screen, the character sequence position, simulated click operation, support functions without the need to rely on various related functions corresponding to the for voice service, but the image data output terminal input voice data at the same time, the corresponding string matching and voice data into. At the screen position of the string, the simulation click operation is performed to realize the terminal operation of any speech instruction, thus improving the reliability of the voice service.

【技术实现步骤摘要】
语音数据的处理方法、装置、设备及计算机可读存储介质
本专利技术涉及语音交互技术,尤其涉及一种语音数据的处理方法、装置、设备及计算机可读存储介质。
技术介绍
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用(Application,APP)。有些应用中会涉及一些语音服务,例如,百度地图等。目前的语音服务,基本都是一种功能级别的实现,它具有一个独立的语音交互模块,这个模块负责录音,并对录音进行识别,并进行自然语音理解生成语音指令,调用其他功能模块完成相关的功能。然而,目前的语音服务,完全依赖于各个相关功能所对应的功能模块对于语音服务的支持,如果某一个功能模块不支持语音服务,则无法基于语音服务实现该功能模块的相关功能,从而导致了语音服务的可靠性的降低。
技术实现思路
本专利技术的多个方面提供一种语音数据的处理方法、装置、设备及计算机可读存储介质,用以提高语音服务的可靠性。本专利技术的一方面,提供一种语音数据的处理方法,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置,包括:采用光学字符识别技术,对所述图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列,包括:采用语音识别技术,对所述语音数据进行语音识别处理,以获得所述语音字符序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列,包括:根据所述至少一个图像字符序列和所述语音字符序列,获得所述每个图像字符序列与所述语音字符序列之间的相似度;根据所述每个图像字符序列与所述语音字符序列之间的相似度,获得相似度最高的图像字符序列;若最高相似度大于或等于预先设置的相似度阈值,将所述相似度最高的图像字符序列,作为所述匹配字符序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作,包括:根据所述匹配字符序列的屏幕位置,获得在所述终端上的模拟点击位置;在所述模拟点击位置,进行模拟点击操作。本专利技术的另一方面,提供一种语音数据的处理装置,包括:图像识别单元,用于对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;语音识别单元,用于对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;字符匹配单元,用于将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;模拟点击单元,用于在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述图像识别单元,具体用于采用光学字符识别技术,对所述图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音识别单元,具体用于采用语音识别技术,对所述语音数据进行语音识别处理,以获得所述语音字符序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述字符匹配单元,具体用于根据所述至少一个图像字符序列和所述语音字符序列,获得所述每个图像字符序列与所述语音字符序列之间的相似度;根据所述每个图像字符序列与所述语音字符序列之间的相似度,获得相似度最高的图像字符序列;以及若最高相似度大于或等于预先设置的相似度阈值,将所述相似度最高的图像字符序列,作为所述匹配字符序列。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模拟点击单元,具体用于根据所述匹配字符序列的屏幕位置,获得在所述终端上的模拟点击位置;以及在所述模拟点击位置,进行模拟点击操作。本专利技术的另一方面,提供一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一方面所提供的语音数据的处理方法。本专利技术的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面所提供的语音数据的处理方法。由上述技术方案可知,本专利技术实施例通过对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置,以及对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列,进而将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列,使得能够在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作,无需依赖各个相关功能所对应的功能模块对于语音服务的支持,而是在终端输入语音数据的同时所输出的图像数据中,匹配与语音数据所对应的字符串,进而在该字符串的屏幕位置,进行模拟点击操作来实现任意语音指令的终端操作,从而提高了语音服务的可靠性。另外,采用本专利技术所提供的技术方案,无需独立开发一套额外的语音服务交互机制,能够有效降低开发成本和维护成本。另外,采用本专利技术所提供的技术方案,能够有效地提高用户的体验。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的语音数据的处理方法的流程示意图;图2为本专利技术另一实施例提供的语音数据的处理装置的结构示意图;图3为适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、个人电脑(PersonalComputer,PC)、MP3播放器、MP4播放器、可穿戴设备本文档来自技高网...
语音数据的处理方法、装置、设备及计算机可读存储介质

【技术保护点】
一种语音数据的处理方法,其特征在于,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。

【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,包括:对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置;对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列;将所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列;在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作。2.根据权利要求1所述的方法,其特征在于,所述对终端所输出的图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置,包括:采用光学字符识别技术,对所述图像数据进行字符识别处理,以获得至少一个图像字符序列和所述至少一个图像字符序列中每个图像字符序列的屏幕位置。3.根据权利要求1所述的方法,其特征在于,所述对所述终端所输入的语音数据进行语音识别处理,以获得语音字符序列,包括:采用语音识别技术,对所述语音数据进行语音识别处理,以获得所述语音字符序列。4.根据权利要求1所述的方法,其特征在于,所述获得所述至少一个图像字符序列中与所述语音字符序列所对应的图像字符序列,作为匹配字符序列,包括:根据所述至少一个图像字符序列和所述语音字符序列,获得所述每个图像字符序列与所述语音字符序列之间的相似度;根据所述每个图像字符序列与所述语音字符序列之间的相似度,获得相似度最高的图像字符序列;若最高相似度大于或等于预先设置的相似度阈值,将所述相似度最高的图像字符序列,作为所述匹配字符序列。5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述在所述终端上所述匹配字符序列的屏幕位置,进行模拟点击操作,包括:根据所述匹配字符序列的屏幕位置,获得在所述终端上的模拟点击位置;在所述模拟点击位置,进行模拟点击操作。6.一种语音数据的处理装置,其特征在于,包括:图像识别单元,用于对终端...

【专利技术属性】
技术研发人员:周志鹏
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1