语音控制方法及装置、存储介质、电子设备制造方法及图纸

技术编号:18944701 阅读:26 留言:0更新日期:2018-09-15 11:58
本公开提供一种语音控制方法及装置、存储介质、电子设备。该方法包括:获取当前页面的页面图像,识别页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出文字单元所在显示区域;获取当前页面中可操作元素所在显示区域,与文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将语音数据转发至语音服务器进行语音识别,语音服务器用于根据上传的文字单元,确定出语音数据对应的待操作文字单元;接收语音服务器发送的待操作文字单元,对待操作文字单元对应的可操作元素执行操作。如此方案,有助于提高语音控制效果。

Speech control method and device, storage medium, and electronic device

The present disclosure provides a voice control method and device, a storage medium, and an electronic device. The method includes: obtaining the page image of the current page, identifying the text contained in the page image; determining the continuous arrangement of the text as a text unit, and determining the display area of the text unit; obtaining the display area of the current page in which the operable elements are located, and matching the display area of the text unit. The text unit corresponding to the operable element is determined; the text unit corresponding to the operable element is uploaded to the voice server to save; the voice data input by the user is obtained, and the voice data is forwarded to the voice server for speech recognition. The voice server is used to determine the corresponding voice data according to the uploaded text unit. Word unit to be operated; Word unit to be operated sent by the voice server is received and operated on the operable elements corresponding to the operation text unit. Such a scheme helps to improve the effect of speech control.

【技术实现步骤摘要】
语音控制方法及装置、存储介质、电子设备
本公开涉及智能控制
,具体地,涉及一种语音控制方法及装置、存储介质、电子设备。
技术介绍
随着智能技术的不断发展,智能设备在日常生活中也越来越普及,尤其是智能家居中各种智能设备的出现,大大的提高了家庭生活的便利性。在实际应用过程中,用户可以通过语音遥控器,控制智能设备执行相关操作。对于具有显示屏幕的智能设备来说,一个重要的功能就是“所见即所说”,也就是说,对于显示屏幕上展示的文字,用户可以直接以语音输入的方式,直接说出屏幕上展示的文字,以此控制智能设备执行相关操作。以智能电视机为例,用户可以说出屏幕上的文字,触发电视机播放这个文字对应的节目;以智能空调为例,用户可以说出屏幕上的文字,触发空调执行这个文字对应的动作,例如调整室温等。通常,在进行语音控制之前,智能设备需要预先将页面包括的文字上传给语音服务器,由语音服务器处理并保存,这样,当用户喊出对应的文字时,语音服务器可以进行语音识别,将识别出的文字发送给智能设备,由智能设备对文字对应的界面元素执行相关操作。需要说明的是,目前的文字上传过程,主要是由页面开发商实现,具体地,智能设备先对接语音服务器提供的统一接口,然后将各页面包含的文字上传到语音服务器。结合实际应用效果来看,目前的语音控制效果不理想,存在语音识别失败的情况,影响了用户体验。
技术实现思路
本公开的主要目的是提供一种语音控制方法及装置、存储介质、电子设备,有助于提高语音控制效果。为了实现上述目的,本公开提供一种语音控制方法,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将所述可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。可选地,所述获取当前页面的页面图像,包括:从智能设备的硬件显示缓冲区获取所述页面图像;或者,接收智能设备的显示系统发送的所述页面图像;或者,通过截屏方式获取所述页面图像。可选地,所述将连续排列的文字确定为一个文字单元,包括:判断相邻文字单元之间的间距是否超过预设距离;如果相邻文字单元之间的间距未超过预设距离,则将所述相邻文字单元合并为一个文字单元。可选地,所述将连续排列的文字确定为一个文字单元之后,所述方法还包括:对所述文字单元进行预处理,得到处理后的文字单元,所述预处理包括:基于预设的指定文字,筛除所述文字单元中的提示性文字;和/或,基于预设的词性组合,筛除所述文字单元中无意义的文字,所述词性组合中至少包括名词;和/或,基于预设的词缀,与所述文字单元中的文字进行组合处理。本公开提供一种语音控制装置,所述装置包括:页面图像获取模块,用于获取当前页面的页面图像,识别所述页面图像中包含的文字;文字单元确定模块,用于将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;显示区域匹配模块,用于获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;文字单元上传模块,用于将所述可操作元素对应的文字单元上传至语音服务器保存;语音数据转发模块,用于获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;文字单元接收模块,用于接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。可选地,所述页面图像获取模块,用于从智能设备的硬件显示缓冲区获取所述页面图像;或者,接收智能设备的显示系统发送的所述页面图像;或者,通过截屏方式获取所述页面图像。可选地,所述文字单元确定模块,用于将连续排列的文字确定为一个文字单元;判断相邻文字单元之间的间距是否超过预设距离;如果相邻文字单元之间的间距未超过预设距离,则将所述相邻文字单元合并为一个文字单元。可选地,所述装置还包括:文字单元预处理模块,用于对所述文字单元确定模块确定出的文字单元进行预处理,得到处理后的文字单元,所述预处理包括:基于预设的指定文字,筛除所述文字单元中的提示性文字;和/或,基于预设的词性组合,筛除所述文字单元中无意义的文字,所述词性组合中至少包括名词;和/或,基于预设的词缀,与所述文字单元中的文字进行组合处理。本公开提供一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述语音控制方法的步骤。本公开提供一种电子设备,所述电子设备包括;上述的存储介质;以及处理器,用于执行所述存储介质中的指令。本公开方案中,可以获取当前页面包含的文字单元以及该文字单元所在显示区域,同时,还可以获取当前页面包含的可操作元素所在显示区域;如此,通过显示区域匹配,可以确定出可操作元素对应的文字单元,即确定出可上传至语音服务器的文字。相对于现有技术全部或有选择性的部分进行文字上传,本公开方案以当前页面的可操作元素为依据实现的文字上传,更具客观性,不仅有助于确保不同页面所传文字集成度的一致性,还有助于确保所传文字均属于用户可操控的对象。完成文字上传后,可以持续进行语音数据拾取,以便将用户所说语音数据发送至语音服务器进行语音识别,进而根据语音服务器识别出的待操作文字单元,确定出对应的可操作元素,执行相关操作,完成整个语音控制过程。对于当前页面来说,实时进行文字上传以及语音数据拾取,有助于确保语音服务器保存的文字单元、用户当前所见所说的文字单元之间的一致性,可以进一步提高语音控制的准确性。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1为本公开方案语音控制方法的流程示意图;图2为本公开方案中当前页面中文字单元所在显示区域的示意图;图3为本公开方案中当前页面中可操作元素所在显示区域的示意图;图4为本公开方案中显示区域匹配后的示意图;图5为本公开方案语音控制装置的构成示意图;图6为本公开方案用于语音控制的电子设备的结构示意图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。专利技术人在研发过程中发现,现有技术的语音控制效果不理想,主要是页面开发商提供的文字集成度不一致导致的。例如,有的页面开发商会将所有界面元素对应的文字均上传至语音服务器,有的页面开发商则只会上传部分界面元素对应的文字,当用户说出未上传的文字时,很可能导致语音识别失败,影响整个语音控制过程,降低用户体验。此外,即使页面开发商上传了所有界面元素对应的文字,考虑到不同页面开发商可能对文字的处理程度有所不同,仍会对语音服务器的语音识别结果产生影响,进而影响整个语音控制本文档来自技高网...

【技术保护点】
1.一种语音控制方法,其特征在于,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将所述可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。

【技术特征摘要】
1.一种语音控制方法,其特征在于,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将所述可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。2.根据权利要求1所述的方法,其特征在于,所述获取当前页面的页面图像,包括:从智能设备的硬件显示缓冲区获取所述页面图像;或者,接收智能设备的显示系统发送的所述页面图像;或者,通过截屏方式获取所述页面图像。3.根据权利要求1所述的方法,其特征在于,所述将连续排列的文字确定为一个文字单元,包括:判断相邻文字单元之间的间距是否超过预设距离;如果相邻文字单元之间的间距未超过预设距离,则将所述相邻文字单元合并为一个文字单元。4.根据权利要求1至3任一项所述的方法,其特征在于,所述将连续排列的文字确定为一个文字单元之后,所述方法还包括:对所述文字单元进行预处理,得到处理后的文字单元,所述预处理包括:基于预设的指定文字,筛除所述文字单元中的提示性文字;和/或,基于预设的词性组合,筛除所述文字单元中无意义的文字,所述词性组合中至少包括名词;和/或,基于预设的词缀,与所述文字单元中的文字进行组合处理。5.一种语音控制装置,其特征在于,所述装置包括:页面图像获取模块,用于获取当前页面的页面图像,识别所述页面图像中包含的文字;文字单元确定模块,用于将连续排列的文字确定为一个文字单元,并确...

【专利技术属性】
技术研发人员:舒翔
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1