The present disclosure provides a voice control method and device, a storage medium, and an electronic device. The method includes: obtaining the page image of the current page, identifying the text contained in the page image; determining the continuous arrangement of the text as a text unit, and determining the display area of the text unit; obtaining the display area of the current page in which the operable elements are located, and matching the display area of the text unit. The text unit corresponding to the operable element is determined; the text unit corresponding to the operable element is uploaded to the voice server to save; the voice data input by the user is obtained, and the voice data is forwarded to the voice server for speech recognition. The voice server is used to determine the corresponding voice data according to the uploaded text unit. Word unit to be operated; Word unit to be operated sent by the voice server is received and operated on the operable elements corresponding to the operation text unit. Such a scheme helps to improve the effect of speech control.
【技术实现步骤摘要】
语音控制方法及装置、存储介质、电子设备
本公开涉及智能控制
,具体地,涉及一种语音控制方法及装置、存储介质、电子设备。
技术介绍
随着智能技术的不断发展,智能设备在日常生活中也越来越普及,尤其是智能家居中各种智能设备的出现,大大的提高了家庭生活的便利性。在实际应用过程中,用户可以通过语音遥控器,控制智能设备执行相关操作。对于具有显示屏幕的智能设备来说,一个重要的功能就是“所见即所说”,也就是说,对于显示屏幕上展示的文字,用户可以直接以语音输入的方式,直接说出屏幕上展示的文字,以此控制智能设备执行相关操作。以智能电视机为例,用户可以说出屏幕上的文字,触发电视机播放这个文字对应的节目;以智能空调为例,用户可以说出屏幕上的文字,触发空调执行这个文字对应的动作,例如调整室温等。通常,在进行语音控制之前,智能设备需要预先将页面包括的文字上传给语音服务器,由语音服务器处理并保存,这样,当用户喊出对应的文字时,语音服务器可以进行语音识别,将识别出的文字发送给智能设备,由智能设备对文字对应的界面元素执行相关操作。需要说明的是,目前的文字上传过程,主要是由页面开发商实现,具体地,智能设备先对接语音服务器提供的统一接口,然后将各页面包含的文字上传到语音服务器。结合实际应用效果来看,目前的语音控制效果不理想,存在语音识别失败的情况,影响了用户体验。
技术实现思路
本公开的主要目的是提供一种语音控制方法及装置、存储介质、电子设备,有助于提高语音控制效果。为了实现上述目的,本公开提供一种语音控制方法,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的 ...
【技术保护点】
1.一种语音控制方法,其特征在于,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将所述可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。
【技术特征摘要】
1.一种语音控制方法,其特征在于,所述方法包括:获取当前页面的页面图像,识别所述页面图像中包含的文字;将连续排列的文字确定为一个文字单元,并确定出所述文字单元所在显示区域;获取所述当前页面中可操作元素所在显示区域,与所述文字单元所在显示区域相匹配,确定出可操作元素对应的文字单元;将所述可操作元素对应的文字单元上传至语音服务器保存;获取用户输入的语音数据,并将所述语音数据转发至所述语音服务器进行语音识别,所述语音服务器用于根据上传的所述文字单元,确定出所述语音数据对应的待操作文字单元;接收所述语音服务器发送的所述待操作文字单元,对所述待操作文字单元对应的可操作元素执行操作。2.根据权利要求1所述的方法,其特征在于,所述获取当前页面的页面图像,包括:从智能设备的硬件显示缓冲区获取所述页面图像;或者,接收智能设备的显示系统发送的所述页面图像;或者,通过截屏方式获取所述页面图像。3.根据权利要求1所述的方法,其特征在于,所述将连续排列的文字确定为一个文字单元,包括:判断相邻文字单元之间的间距是否超过预设距离;如果相邻文字单元之间的间距未超过预设距离,则将所述相邻文字单元合并为一个文字单元。4.根据权利要求1至3任一项所述的方法,其特征在于,所述将连续排列的文字确定为一个文字单元之后,所述方法还包括:对所述文字单元进行预处理,得到处理后的文字单元,所述预处理包括:基于预设的指定文字,筛除所述文字单元中的提示性文字;和/或,基于预设的词性组合,筛除所述文字单元中无意义的文字,所述词性组合中至少包括名词;和/或,基于预设的词缀,与所述文字单元中的文字进行组合处理。5.一种语音控制装置,其特征在于,所述装置包括:页面图像获取模块,用于获取当前页面的页面图像,识别所述页面图像中包含的文字;文字单元确定模块,用于将连续排列的文字确定为一个文字单元,并确...
【专利技术属性】
技术研发人员:舒翔,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。