一种基于OCR的可见即可说功能的实现方法技术

技术编号:37791823 阅读:110 留言:0更新日期:2023-06-09 09:22
本发明专利技术涉及语音交互技术领域,具体涉及一种基于OCR的可见即可说功能的实现方法,包括:S1:用户说出唤醒词,CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中,若存在,则打开语音助手进入语音识别状态,执行S2;若不存在,则进入待机状态;S2:用户说出界面关键词,语音转译组件将用户说出的界面关键词转译成文字信息;S3:语意转译组件对所述文字信息进行语意转译,将所述文字信息转译为标准字符数据;S4:通过OCR识别组件对屏幕文字进行处理;S5:屏幕点击组件获取处理后屏幕文字的坐标参数进行触点交互。基于本发明专利技术的方法,完美兼容第三方应用的介入,提高了用户操作的便利性,通过系统的各个组件提高相关用户词条的命中率。词条的命中率。词条的命中率。

【技术实现步骤摘要】
一种基于OCR的可见即可说功能的实现方法


[0001]本专利技术涉及语音交互
,具体涉及一种基于OCR的可见即可说功能的实现方法。

技术介绍

[0002]目前大部分智能终端都搭载一个基本的语音系统,便于用户利用语音操作一些基本的功能或者进行一些设置,但目前市面上语音系统的技能并非覆盖所有的技能,例如你打开了一个第三方的视频app,想通过语音系统说出相关的关键词条来响应点击当前页面的“热门”视频分类的页面,是无法做到的,目前第三方应用想兼备可见即可说的功能,一般都会提供相关功能接口供语音系统响应相关的词条,才能达到该场景功能,并且覆盖的场景不大。且实际应用中很多“可见即可说”场景都会依赖于系统的运算能力,会出现不能及时响应、无法命中、响应缓慢、卡顿、死机、操作系统异常等问题。
[0003]为了解决这个痛点,本专利技术可以做到无需第三方应用配合语音系统做相关的功能开发,亦无需云端服务器做相关数据的处理,即可打通以上说到的场景,还有其他第三方应用亦可以,只要你在界面看得到任何一个词条,利用语音系统说出该词即可响应对应界面词条的点击事件,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的可见即可说功能的实现方法,其特征在于,所述方法包括如下步骤:S1:用户说出唤醒词,CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中,若存在,则打开语音助手,进入语音识别状态,执行S2;若不存在,则进入待机状态;S2:用户说出界面关键词,语音转译组件将用户说出的界面关键词转译成文字信息;S3:语意转译组件对所述文字信息进行语意转译,将所述文字信息转译为标准字符数据;S4:通过OCR识别组件对屏幕文字进行处理;S5:屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互。2.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述CAE组件还包括降噪算法、差分阵列算法,用于对声源进行降噪处理。3.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述步骤S4中,通过OCR识别组件对屏幕文字进行处理,具体包括:S41:对当前屏幕内容进行截图,并对截取图片的文字进行预处理;S42:对预处理后的文字进行字符切割处理,并标记每个字符在屏幕中的坐标参数;S43:OCR组件对切割后的所有字符进行识别,并提取到系统缓存中;S44:将识别后的字符有序排列,并存放到字符数据集合中;S45:将所有字符数据进行特殊符号处理,排除特殊符号的识别阻碍,以便识别用户说出的词条。4.根据权利要求3所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述步骤S41中,对截取图片的文字进行预处理具体包括:对截取的图片进行灰度化、二值化和降噪处理;对图片中的文字进行阴影处理和倾斜处理。5.根据权利要求4所述的一种基于OCR的可见即可说功能的实现方法,其特征在于,所述阴影处理具体为:对有阴影的文字去除字体阴影,调整整体背景为白色,字体...

【专利技术属性】
技术研发人员:冯南阳袁灵芝罗慧娜
申请(专利权)人:润芯微科技江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1