一种基于OCR的可见即可说功能的实现方法技术

技术编号:37791823 阅读:103 留言:0更新日期:2023-06-09 09:22
本发明专利技术涉及语音交互技术领域,具体涉及一种基于OCR的可见即可说功能的实现方法,包括:S1:用户说出唤醒词,CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中,若存在,则打开语音助手进入语音识别状态,执行S2;若不存在,则进入待机状态;S2:用户说出界面关键词,语音转译组件将用户说出的界面关键词转译成文字信息;S3:语意转译组件对所述文字信息进行语意转译,将所述文字信息转译为标准字符数据;S4:通过OCR识别组件对屏幕文字进行处理;S5:屏幕点击组件获取处理后屏幕文字的坐标参数进行触点交互。基于本发明专利技术的方法,完美兼容第三方应用的介入,提高了用户操作的便利性,通过系统的各个组件提高相关用户词条的命中率。词条的命中率。词条的命中率。

【技术实现步骤摘要】
一种基于OCR的可见即可说功能的实现方法


[0001]本专利技术涉及语音交互
,具体涉及一种基于OCR的可见即可说功能的实现方法。

技术介绍

[0002]目前大部分智能终端都搭载一个基本的语音系统,便于用户利用语音操作一些基本的功能或者进行一些设置,但目前市面上语音系统的技能并非覆盖所有的技能,例如你打开了一个第三方的视频app,想通过语音系统说出相关的关键词条来响应点击当前页面的“热门”视频分类的页面,是无法做到的,目前第三方应用想兼备可见即可说的功能,一般都会提供相关功能接口供语音系统响应相关的词条,才能达到该场景功能,并且覆盖的场景不大。且实际应用中很多“可见即可说”场景都会依赖于系统的运算能力,会出现不能及时响应、无法命中、响应缓慢、卡顿、死机、操作系统异常等问题。
[0003]为了解决这个痛点,本专利技术可以做到无需第三方应用配合语音系统做相关的功能开发,亦无需云端服务器做相关数据的处理,即可打通以上说到的场景,还有其他第三方应用亦可以,只要你在界面看得到任何一个词条,利用语音系统说出该词即可响应对应界面词条的点击事件,做到可见即可说的效果。

技术实现思路

[0004]针对现有可见即可说功能不能完全支持第三方应用和运行时出现不能及时响应、卡顿、死机等问题,提出了一种基于OCR的可见即可说功能的实现方法,无需第三方应用配合语音系统做相关的功能开发,亦无需云端服务器做相关数据的处理,无论设备屏幕处于哪个界面,唤醒语音系统说出界面所对应的关键词,即可响应点击到关键词的坐标位置,做到可见即可说的效果。
[0005]为了实现上述目的,本专利技术通过如下的技术方案来实现:一种基于OCR的可见即可说功能的实现方法,所述方法包括如下步骤:S1:用户说出唤醒词,CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中,若存在,则打开语音助手,进入语音识别状态,执行S2;若不存在,则进入待机状态;S2:用户说出界面关键词,语音转译组件将用户说出的界面关键词转译成文字信息;S3:语意转译组件对所述文字信息进行语意转译,将所述文字信息转译为标准字符数据;S4:通过OCR识别组件对屏幕文字进行处理;S5:屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互。
[0006]作为本专利技术的一种优选方案,所述CAE组件还包括降噪算法、差分阵列算法,用于对声源进行降噪处理。
[0007]作为本专利技术的一种优选方案,所述步骤S4中,通过OCR识别组件对屏幕文字进行处理,具体包括:S41:对当前屏幕内容进行截图,并对截取图片的文字进行预处理;S42:对预处理后的文字进行字符切割处理,并标记每个字符在屏幕中的坐标参数;S43:OCR组件对切割后的所有字符进行识别,并提取到系统缓存中;S44:将识别后的字符有序排列,并存放到字符数据集合中;S45:将所有字符数据进行特殊符号处理,排除特殊符号的识别阻碍,以便识别用户说出的词条。
[0008]作为本专利技术的一种优选方案,所述步骤S41中,对截取图片的文字进行预处理具体包括:对截取的图片进行灰度化、二值化和降噪处理;对图片中的文字进行阴影处理和倾斜处理。
[0009]作为本专利技术的一种优选方案,所述阴影处理具体为:对有阴影的文字去除字体阴影,调整整体背景为白色,字体为黑色;所述倾斜处理具体为:识别文字最小面积矩形并进行旋转,实现角度矫正。
[0010]作为本专利技术的一种优选方案,所述倾斜处理还包括:若识别文字最小面积矩形并进行旋转后,矩形已摆正但矩形内的文字还是处于倾斜状态,则采用霍夫线变换,把每一段文字都用一条线连起,然后通过处理将线置于水平状态,即可把倾斜的文字矫正。
[0011]作为本专利技术的一种优选方案,所述S42中,字符切割处理包括切行处理和切列处理,所述切行处理为把所有字符黑色像素都压缩到从左至右穿过的一条线上,从而得知每一行的字符;所述切列处理为把字符黑色像素都压缩到从上至下穿过的一条线上,从而得知有多少列文字。
[0012]作为本专利技术的一种优选方案,所述步骤S5中屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互,具体包括:屏幕点击组件根据OCR识别组件得出的字符数据集合与语意转译组件得出的标准字符数据进行匹配,若匹配成功,则获取所述标准字符数据对应的坐标参数,根据所述坐标参数进行屏幕坐标匹配点击,并在该坐标位置响应点击效果。
[0013]作为本专利技术的一种优选方案,所述步骤S5还包括:用户再次说出当前界面关键词时,优先匹配第一次的字符数据集合,同时系统以异步线程的方式通过OCR识别组件对当前屏幕文字进行处理,供系统二次匹配。若匹配失败,则重复步骤S4,重新进行对屏幕文字进行OCR识别。
[0014]一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
[0015]与现有技术相比,本专利技术具有的有益效果是:针对智能终端中的语音系统,无需第三方应用配合做相关功能的开发,亦无需云端服务器做相关数据的处理,无论设备屏幕处于哪个界面,只要唤醒语音系统说出界面所对应的关键词,即可响应对应界面词条的点击事件,做到可见即可说的效果,完美兼容第三方应用的介入,提高了用户操作的便利性。基于本专利技术提出的方法,解决了设备运行压力大的问题,通过系统的各个组件提高相关用户词条的命中率,优化运算能力、识别能力、响应
速度。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。其中:图1为本专利技术实施例中的方法流程图;图2为本专利技术实施例中步骤S4的操作流程图。
具体实施方式
[0017]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明。
[0018]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。
[0019]其次,此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0020]术语解释:CAE:即Computer Aided Engineering,指工程设计中的计算机辅助工程,指用计算机辅助求解分析复杂工程和产品的结构力学性能,以及优化结构性能等;OCR:Optical Character Recognition,即光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的可见即可说功能的实现方法,其特征在于,所述方法包括如下步骤:S1:用户说出唤醒词,CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中,若存在,则打开语音助手,进入语音识别状态,执行S2;若不存在,则进入待机状态;S2:用户说出界面关键词,语音转译组件将用户说出的界面关键词转译成文字信息;S3:语意转译组件对所述文字信息进行语意转译,将所述文字信息转译为标准字符数据;S4:通过OCR识别组件对屏幕文字进行处理;S5:屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互。2.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述CAE组件还包括降噪算法、差分阵列算法,用于对声源进行降噪处理。3.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述步骤S4中,通过OCR识别组件对屏幕文字进行处理,具体包括:S41:对当前屏幕内容进行截图,并对截取图片的文字进行预处理;S42:对预处理后的文字进行字符切割处理,并标记每个字符在屏幕中的坐标参数;S43:OCR组件对切割后的所有字符进行识别,并提取到系统缓存中;S44:将识别后的字符有序排列,并存放到字符数据集合中;S45:将所有字符数据进行特殊符号处理,排除特殊符号的识别阻碍,以便识别用户说出的词条。4.根据权利要求3所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述步骤S41中,对截取图片的文字进行预处理具体包括:对截取的图片进行灰度化、二值化和降噪处理;对图片中的文字进行阴影处理和倾斜处理。5.根据权利要求4所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述阴影处理具体为:对有阴影的文字去除字体阴影,调整整体背景为白色,字体...

【专利技术属性】
技术研发人员:冯南阳袁灵芝罗慧娜
申请(专利权)人:润芯微科技江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1