一种自定义语音实现屏幕控制的方法技术

技术编号:22503363 阅读:187 留言:0更新日期:2019-11-09 02:58
一种自定义语音实现屏幕控制的方法,包括:1)识别输入的语音并转化为文字;2)对所述文字进行截取关键词;3)对比已有的关键词列表,判断所述截取关键词是否为已有关键词;4)提示无法识别所述截取关键词,返回步骤1);5)对当前界面进行截图,并对所述截图中的图像进行拆分识别,通过模版识别和文字识别,匹配并记录每个所述图像的位置;6)将输入的语音队列串行执行,依次将每个操作的脚本执行,识别结束语时执行结束操作。本发明专利技术的一种自定义语音实现屏幕控制的方法,通过语音的方式即可实现触屏,从而节省用户更多精力并提高用户体验。

A method of screen control based on custom voice

A method for realizing screen control by user-defined voice includes: 1) recognizing the input voice and converting it into text; 2) intercepting the key words of the text; 3) comparing the existing key words list to determine whether the keyword intercepted is an existing key word; 4) prompting that the keyword intercepted cannot be recognized and returning to step 1); 5) screenshots the current interface and The image in the screenshot is split for recognition, and the position of each image is matched and recorded through template recognition and text recognition; 6) the input voice queue is executed serially, the script of each operation is executed successively, and the end operation is executed when the end statement is recognized. The invention relates to a method for realizing screen control by self defining voice, which can realize touch screen by voice, thereby saving more energy of users and improving user experience.

【技术实现步骤摘要】
一种自定义语音实现屏幕控制的方法
本专利技术涉及语音识别
,特别是涉及一种自定义语音实现屏幕控制的方法方法。
技术介绍
在目前已有的屏幕控制方式中,或多或少需要人为的去触摸屏幕以获得屏幕事件的反馈,为了更好的辅助用户对移动设备的屏幕控制,一种通过自定义语音来实现屏幕控制的方案应运而生。本专利技术旨在设计一种基于Android平台下的语音映射和图像识别技术以实现用户想通过语音助手来控制屏幕的技术和功能,目的是为了让用户可以选择更多更便利的方式来控制设备,极大加强用户在比如棋牌类游戏中的游戏体验,从而衍生出更多的游戏玩法,促进用户对设备的控制。在目前市场成熟的语音识别和人工智能技术加持下,通过语音实时控制触屏的方案能够正常开展,而且随着技术的日益成熟,以后会衍生出更多语音控制设备的样例。
技术实现思路
为了解决现有技术存在的不足,本专利技术的目的在于提供一种自定义语音实现屏幕控制的方法方法,通过语音的方式即可实现触屏,从而节省用户更多精力并提高用户体验。为实现上述目的,本专利技术提供的一种自定义语音实现屏幕控制的方法,包括:1)识别输入的语音并转化为文字;2)对所述文字进行截取关键词;3)对比已有的关键词列表,判断所述截取关键词是否为已有关键词;4)提示无法识别所述截取关键词,返回步骤1);5)对当前界面进行截图,并对所述截图中的图像进行拆分识别,通过模版识别和文字识别,匹配并记录每个所述图像的位置;6)将输入的语音队列串行执行,依次将每个操作的脚本执行,识别结束语时执行结束操作。进一步地,还包括,持续录制屏幕和后台语音助手监听语音。进一步地,还包括,提供模版化操作脚本,输入记录的自定义关键词作为语音接收的截取关键词。进一步地,所述模版化操作脚本包括记录当前屏幕位置x、y的点击,滑动以及长按的触屏操作,并将操作数据转化为json格式。进一步地,建立语音与模版化操作数据的映射关系,将所述映射关系和所述操作脚本全局存储,识别输入的语音关键词后执行对应的操作脚本逻辑。进一步地,采集声纹作为唯一标识,只识别已采集声纹的语音并执行。进一步地,所述步骤6)进一步包括,重新录屏识别当前图像;重新计算所述当前图像的位置与所述截取关键词的映射关系并以sendEvent的方式执行操作脚本。进一步地,还包括,本地加载云端的图像识别模板和识别关键词;本地生成符合终端后台通信协议的集合来进行加载;将本地映射关系上传到服务器进行保存;请求获取上传的映射关系信息,加载对应的集合至本地;测试映射关系是否可行并支持本地映射关系的修改和导出。为实现上述目的,本专利技术还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行如上文所述的自定义语音实现屏幕控制的方法步骤。为实现上述目的,本专利技术还提供一种控制设备,其特征在于,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行如上文所述的自定义语音实现屏幕控制的方法步骤。本专利技术的一种自定义语音实现屏幕控制的方法方法,具有以下有益效果:1)有利于加强用户与移动设备的交互,让用户选择用语音的方式实现想要达到的目的,从而让用户感知移动设备也有“智慧”,听得懂人话,让用户更有趣好玩的操作移动设备。2)语音控制屏幕的方式可以解放用户的双手,让用户通过语音的方式即可实现触屏,从而节省用户更多精力并提高用户体验,以此给用户带来更多的便利操作,以智能化的理念简化用户在设备上的操作,使用户在设备中的体验更加智能化,更加便捷。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,并与本专利技术的实施例一起,用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为根据本专利技术的自定义语音控制屏幕的方法流程图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1为根据本专利技术的自定义语音控制屏幕的方法流程图,下面将参考图1,对本专利技术的自定义语音控制屏幕的方法进行详细描述。首先,在步骤101,初始化进入语音自定义设置。该步骤中,初始化进入自定义语音设置界面。在步骤102,采集声纹作为唯一标识。该步骤中,采集用户的声纹作为唯一标识。优选地,设置触发声音控制的开关为快捷键。该步骤中,设置触发功能声音控制的快捷键作为开关控制。在步骤103,记录模块化脚本的操作数据定义。优选地,提供模块化操作脚本,输入记录的自定义关键词作为自定义语音接收的拦截词。该步骤中,提示自定义语音设置入口,提供模板化操作脚本,用户输入记录的自定义关键词作为自定义语音接收拦截词。优选地,模板化操作脚本包括记录当前屏幕位置x、y的点击,滑动以及长按等触屏操作,并将相关操作数据化转为json格式。在步骤104,建立语音与模块化操作数据的映射关系并保存。该步骤中,用户定义完模板化操作脚本后,输入文字化的语音完成映射关系绑定。优选地,将映射关系和操作脚本全局存储,识别输入的语音关键词后执行相应的操作脚本逻辑。该步骤中,将相关语音关键词与操作脚本全局存储,方便下次语音识别相关关键词后执行对应的操作脚本逻辑。在步骤105,加载云端的图像识别模板和识别关键词。该步骤中,当用户打开第三方应用,比如棋牌类游戏,根据不同应用加载云端相应的图像识别模板以及识别关键词。优选地,语音触屏的云端加载需要本地生成一套符合终端后台通信协议的集合;对特定的语音触屏位置映射关系通过网络上传的方式将数据传输到后台服务器群组进行保存;其他终端设备通过网络请求获取相关的映射关系信息,拉取加载对应的集合至本地;运行、测试映射关系是否可行并支持本地映射关系的修改和导出等。在步骤106,监听语音,截取关键词。该步骤中,监听用户的语音,截取对应的关键词。优选地,持续录屏和后台语音助手监听语音。该步骤中,持续录屏和后台挂起语音助手监听用户语音。在步骤107,截取当前图像进行拆分识别,匹配并记录当前图像的位置和映射关系。该步骤中,通过模板匹配,文字识别读取当前用户所拥有的识别图像和对应位置并存储每个应用独有的映射关系。在步骤108,将自定义语音作为一个队列,插入相应的语音关键词元素,依次读取每个元素并执行对应的操作脚本。该步骤中,将多个自定义语音作为一个队列,每次有一个语音关键词则插入一个元素,依次将每个元素从头到尾读取并执行对应的操作脚本。优选地,只识别初始化已采集声纹的语音并执行。该步骤中,如果存在多个用户同时对话情况,只识别初始化已采集声纹的语音并执行,识别输入的语音并转化为文字。在步骤109,识别执行词和结束语,在对应的位置依次执行操作脚本。该步骤中,在用户说出执行词/结束语后,将对应的位置依次执行操作脚本。优选地,重新录屏识别当前用户的图像。优选地,重新计算所拥有棋牌的位置与语音关键词的映射关系提供给该识别程序并以sendEvent的方式执行操作脚本。优选地,关闭持续录屏开关后结束本次屏幕控制。优选地,玩家A打开棋牌类游戏后,识别到是特定匹配的游戏,加载识别区域和所有棋牌的模板以及识别关键词列表,玩家A第一次进入游戏场景时,弹窗提本文档来自技高网...

【技术保护点】
1.一种自定义语音实现屏幕控制的方法,其特征在于,包括:1)识别输入的语音并转化为文字;2)对所述文字进行截取关键词;3)对比已有的关键词列表,判断所述截取关键词是否为已有关键词;4)提示无法识别所述截取关键词,返回步骤1);5)对当前界面进行截图,并对所述截图中的图像进行拆分识别,通过模版识别和文字识别,匹配并记录每个所述图像的位置;6)将输入的语音队列串行执行,依次将每个操作的脚本执行,识别结束语时执行结束操作。

【技术特征摘要】
1.一种自定义语音实现屏幕控制的方法,其特征在于,包括:1)识别输入的语音并转化为文字;2)对所述文字进行截取关键词;3)对比已有的关键词列表,判断所述截取关键词是否为已有关键词;4)提示无法识别所述截取关键词,返回步骤1);5)对当前界面进行截图,并对所述截图中的图像进行拆分识别,通过模版识别和文字识别,匹配并记录每个所述图像的位置;6)将输入的语音队列串行执行,依次将每个操作的脚本执行,识别结束语时执行结束操作。2.根据权利要求1所述的方法,其特征在于,还包括,持续录制屏幕和后台语音助手监听语音。3.根据权利要求1所述的方法,其特征在于,还包括,提供模版化操作脚本,输入记录的自定义关键词作为语音接收的截取关键词。4.根据权利要求3所述的方法,其特征在于,所述模版化操作脚本包括记录当前屏幕位置x、y的点击,滑动以及长按的触屏操作,并将操作数据转化为json格式。5.根据权利要求3所述的方法,其特征在于,还包括,建立语音与模版化操作数据的映射关系,将所述映射关系和所述操作脚本全局存储,识别输入的语音关...

【专利技术属性】
技术研发人员:陈浩波
申请(专利权)人:苏州蜗牛数字科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1