The embodiment of this application discloses a voice output method and device. One specific embodiment of the method includes: acquiring an image indicating the user's current reading state, in which the current reading state includes the reading content and the user's current operation information; determining the current reading text of the reading content based on the user's current operation information in response to the reading content containing text Words; from the beginning of the current reading text, output the corresponding voice with the text in the reading content. The method provided by the embodiment of this application can output the voice corresponding to the text in the image based on the current operation information of the user. In this way, the embodiment of the application can determine the current reading text according to the user's operation, and then flexibly perform voice output.
【技术实现步骤摘要】
语音输出方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及语音输出方法和装置。
技术介绍
阅读是日常生活中非常常见的活动。因为视力和识字能力等原因,老人和儿童往往有不同程度的阅读困难,无法自行阅读。在现有技术中,电子设备可以对文字进行识别,并播放文字对应的语音,从而实现帮助阅读的功能。
技术实现思路
本申请实施例提出了语音输出方法和装置。第一方面,本申请实施例提供了一种语音输出方法,包括:获取用于指示用户当前阅读状态的图像,其中,当前阅读状态包括阅读内容和用户的当前操作信息;响应于阅读内容包含文字,基于用户的当前操作信息,确定阅读内容的当前阅读文字;从当前阅读文字起始,输出与阅读内容中的文字对应的语音。在一些实施例中,当前操作信息包括用户在图像的遮挡位置;响应于阅读内容包含文字,基于用户的当前操作信息,确定阅读内容的当前阅读文字,包括:获取图像中的文字的文字识别结果;将图像中文字所在的区域划分为多个子区域;从多个子区域中,确定遮挡位置所在的子区域;将所确定的子区域中的起始文字作为当前阅读文字。在一些实施例中,将图像中文字所在的区域划分为多个子 ...
【技术保护点】
1.一种语音输出方法,包括:获取用于指示用户当前阅读状态的图像,其中,所述当前阅读状态包括阅读内容和所述用户的当前操作信息;响应于所述阅读内容包含文字,基于所述用户的当前操作信息,确定所述阅读内容的当前阅读文字;从所述当前阅读文字起始,输出与所述阅读内容中的文字对应的语音。
【技术特征摘要】
1.一种语音输出方法,包括:获取用于指示用户当前阅读状态的图像,其中,所述当前阅读状态包括阅读内容和所述用户的当前操作信息;响应于所述阅读内容包含文字,基于所述用户的当前操作信息,确定所述阅读内容的当前阅读文字;从所述当前阅读文字起始,输出与所述阅读内容中的文字对应的语音。2.根据权利要求1所述的方法,其中,所述当前操作信息包括用户在所述图像的遮挡位置;所述响应于所述阅读内容包含文字,基于所述用户的当前操作信息,确定所述阅读内容的当前阅读文字,包括:获取所述图像中的文字的文字识别结果;将所述图像中文字所在的区域划分为多个子区域;从所述多个子区域中,确定所述遮挡位置所在的子区域;将所确定的子区域中的起始文字作为当前阅读文字。3.根据权利要求2所述的方法,其中,所述将所述图像中文字所在的区域划分为多个子区域,包括:确定所述图像中的文字行,其中,相邻两文字行之间的间隔大于预设间隔阈值;按照各个文字行内文字之间的间隔大小,对文字行进行划分,得到多个子区域。4.根据权利要求2所述的方法,其中,所述将所确定的子区域中的起始文字作为当前阅读文字,还包括:响应于获取所确定的子区域的文字识别结果成功,将所确定的子区域中的起始文字作为当前阅读文字;响应于未获取到所确定的子区域的文字识别结果,在所确定的子区域所在的文字行的上一文字行中,确定与所确定的子区域相邻的子区域,将所述相邻的子区域中的起始文字作为当前阅读文字。5.根据权利要求1所述的方法,其中,所述获取用于指示用户当前阅读状态的图像,包括:获取初始图像;响应于所述初始图像存在遮挡区域,确定所述初始图像的当前操作信息;获取初始图像的用户选取区域信息,基于所述用户选取区域信息,在初始图像确定阅读内容;将所确定的当前操作信息和阅读内容确定为用户当前阅读状态。6.根据权利要求5所述的方法,其中,所述获取用于指示用户当前阅读状态的图像,还包括:响应于确定所述初始图像不存在遮挡区域,向图像采集装置发送图像采集指令以使所述图像采集装置调整视野并重新获取图像,将重新获取的图像作为初始图像;将重新获取的初始图像中的被遮挡的区域确定为遮挡区域,确定重新获取的初始图像的当前操作信息。7.根据权利要求1所述的方法,其中,在所述从所述当前阅读文字起始,输出与所述阅读内容中的文字对应的语音之前,所述方法还包括:响应于确定在所述图像的边缘存在不完整的文字,或者文字所在区域的边缘与所述图像的边缘的距离小于指定间隔阈值,向图像采集设备发送重新采集指令,以使所述图像采集设备调整视野并重新采集图像。8.根据权利要求2所述的方法,其中,所述从所述当前阅读文字起始,输出与所述阅读内容中的文字对应的语音,包括:基于所述文字识别结果,将从所述当前阅读文字到结尾的文字转换为语音音频;播放所述语音音频。9.一种语音输出装置,包括:获取单元,被配置成获取用于指示用户当前阅读状态的图像,其中,所述当前阅读状态包括阅读内容和所述用户的当前操作信息;确定单元,被配置成响应于所述阅读内容包含文字,...
【专利技术属性】
技术研发人员:席晓宁,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。