一种基于语音识别的文本定位和选择方法技术

技术编号:8861945 阅读:141 留言:0更新日期:2013-06-28 01:11
本发明专利技术揭示了一种基于语音识别的文本定位和选择方法,包含语音识别模块,文本选择模块、业务逻辑模块等。本发明专利技术通过用户口述部分内容,终端或系统进行语音的识别,将用户口述的语音片段转换为文本内容,并以该部分文字内容为关键词搜索当前的终端上的活动窗口上显示的文本,并基于搜索结果识别文本进行定位,定位成功后选取对应的内容,从而帮助用户快速选取对应的内容以进行进一步的操作。本发明专利技术通过用户口述内容进行识别并搜索当前活动窗口的文本内容并进行定位和选取,为用户提供了一种文本选择的方法。

【技术实现步骤摘要】

本专利技术涉及系统软件,语音识别
,更具体地说,涉及。
技术介绍
传统的文本选择方式在各个终端上都需要用户进行手工的各种操作,包含电脑上的鼠标拖拉选择,键盘操作,智能终端上通过触摸屏触摸进行选择,在某些特定的场景下存在困难,如触摸屏的灵敏度,用户手指的灵活度,都会影响在屏幕上的选择操作,尤其是在屏幕较小的智能终端上,用户精确定位文本并选择经常存在各种问题,需要反复进行定位和选择。而语音识别已经成为各种智能终端和系统的普遍的能力的情况下,通过语音识别获取用户的意图,可以精确选取对应的用户需要选择和定位的文本,方便了用户的操作,为用户在不同环境下的操作提供一个选择。
技术实现思路
通过用户口述部分内容,终端或系统进行语音的识别,将用户口述的语音片段转换为文本内容,并以该部分文字内容为关键词搜索当前的终端上的活动窗口上显示的文本,并基于搜索结果识别文本进行定位,定位成功后选取对应的内容,从而帮助用户快速选取对应的内容以进行进一步的操作,为用户提供了使用简单快捷的。进一步的,通过所提供的为用户使用各种终端的应用的发展提供有力保障,满足各方要求,提升用户友好体验。为实现上述目的,本专利技术的一个方面提供了,该方法包括: 在终端上通过用户口述需要选取的内容,在终端或系统进行语音识别,转换为文字并以识别结果为关键词发起当前活动窗口的文本内容的搜索,获取识别文本的定位并基于位置选择对应的文本内容。终端包含了传统电脑,手机,平板电脑等支持语音获取和网络功能的各种终端设备。本专利技术提供的的一个实施例中,该方法还包括: 用户口述的内容片段,终端通过麦克风获取和记录用户语音数据,转换为语音识别要求的语音格式,根据终端设备软硬件识别能力选择在终端进行语音识别,或通过以服务方式开放的系统端语音识别接口请求系统进行语音识别,获取语音对应的文本。根据终端软硬件环境和能力,终端可以加载语音识别模块,也可以通过发送获取的音频内容到系统在线语音识别服务进行内容的识别,并在识别后发起当前活动窗口的文本的搜索和定位。本专利技术提供的的一个实施例中,该方法还包括: 终端在获取对应语音的文本内容后,在当前的活动窗口搜索对应的文本,搜索到文本后定位文本的位置,并按照当前终端系统的选择方式对文本进行加亮等操作,用户随后可以呼出对应菜单进行进一步的操作。本专利技术提供的的一个实施例中,该方法还包括: 定位到对应的文本内容后,用户可以通过按键等方式呼出对应的选择菜单,菜单包含各种操作选择项,包含常见的复制,剪切,分享等各种操作。 具体来说具有以下优点: 使用方式简单: 用户简单地口述部分语句即可获取对应内容文本后进行定位和选择以及进一步的各种操作,系统自动进行语句的识别,解析和识别,实现方式简单便捷。云模式识别: 满足不同能力的终端,可以在终端进行语音的识别,也可以通过系统端的语音识别服务进行语音识别,满足了不同硬件层次能力的终端。定位准确: 通过系统自动进行文本的选择和定位,无需用户手动进行选择,避免了各种终端的硬件缺陷以及用户操作灵活度的问题,提高了定位和选择的精度。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1为本专利技术系统模块结构的示意图。图2为本专利技术业务流程示意图。图3为本专利技术语音识别流程示意图。具体实施例方式下面参照附图对本专利技术进行更全面的描述,其中说明本专利技术的示例性实施例。为实现上述目的,提出了。以下通过结合附图,对本专利技术的实施方式进行描述 实现的关键点如下: 语音获取: 用户通过终端麦克风录下用户选取和口述的部分内容片段内容并编码压缩成语音识别接受的语音格式。语音识别: 用户口述文字启动语音识别,识别模块在终端或系统端,根据终端能力在终端安装语音识别库进行语音识别,或系统端提供语音识别能力并以服务形式进行开放,终端请求系统端的语音识别服务,提交记录的语音数据,系统进行语音识别。内容搜索和定位: 在终端获取对应的语音文本后,终端侧基于文本进行内容的搜索和定位,自动将搜索到的内容进行选择,以反色等常规选取表现方式将文本进行选择,用户随即可以基于这些选择的文本呼出操作菜单,包含复制,剪切,分享等各种操作。 主要功能模块如图1所示: 移动终端侧: 终端是指具备移动互联网网功能和相机的各种智能终端设备,包含智能手机,带移动数据功能的平板电脑等设备; 用户终端100: 用户终端是指各种具备操作系统的设备,包含电脑,平板,智能手机等各种智能设备并具备网络功能。业务逻辑101: 终端业务逻辑,控制和调用各个业务的逻辑功能以及业务流程,并与周边的各个功能模块进行数据的传递和功能的调用。语音获取模块102: 调用终端音频功能和麦克风记录用户语音,并转换为识别服务模块要求的语音格式,提供给识别模块进行内容的识别。内容操作模块103: 在对文本进行定位后,提供对应文本的操作选项,用户基于内容操作可以对内容进行进一步的各种操作,如复制,剪切等。配置管理模块104: 终端侧用户进行各种用户参数和业务参数的配置,包含用户数据配置,业务参数配置坐寸ο内容搜索定位模块105: 在获取到语音识别的结果文本后,终端应用将结果文本作为关键词进行搜索当前窗口的内容,并基于搜索的结果进行光标的定位和内容的选择。语音识别模块106: 终端侧可选模块,在终端具备语音识别能力的情况下识别用户口述的语音内容,并将其转换为文字提供给搜索等其他功能模块。服务请求模块107: 请求系统远程语音识别等远程服务的功能模块,终端通过服务请求模块生成各种服务请求,请求远程系统提供各种服务功能,包含识别服务等。接口模块 108: 终端与系统之间的数据接口,通过接口发送和接收系统端的服务响应消息的各种数据。传输通道109: 包含移动网和互联网,承载数据传输通道和各种业务,传输终端和系统之间的各种数据。 系统侧:系统端为不具备本地语音识别的终端提供服务,是可选的部分。服务接口模块110: 定义系统端提供的服务访问的方式和参数,负责与终端通过数据网进行通信,获取移动终端提交的请求和消息交互的各种数据。业务逻辑模块111: 根据用户提交的各种请求以及请求数据执行各个对应的业务逻辑并负责控制和调用周边的功能模块进行通信并交换各种数据已完成各种业务逻辑功能。安全模块112: 负责系统对用户及业务请求的安全管理,对用户和终端进行鉴权认证,以及保障数据传输的安全,包含数据的加密解密等涉及业务安全的各种功能。语音识别模块113: 系统负责识别终端侧发送的原始数据内容,通过接口服务,终端远程调用系统识别模块的识别服务,并将识别结果提交给其他功能模块以继续下一步流程。系统管理模块114: 对整个系统进行管理和配置,包含用户管理,日志记录和管理,业务逻辑的管理等等。 图3示出本专利技术语音识别流程示意图,步骤如下。I)用户打开应用; 2)用户口述需要定位和选择的文本; 3)终端获取用户的语音数据; 4)根据识别方式,选择在终端本地或系统进行识别; 5)获取识别结果后,应用以识别结果发起文本的搜索和定位; 6)对定位的文本,应用选取对应的文本并进行加本文档来自技高网...

【技术保护点】
一种基于语音识别的文本定位和选择方法,其特征在于,在终端上通过用户口述需要选取的内容,在终端或系统进行语音识别,转换为文字并以识别结果为关键词发起当前活动窗口的文本内容的搜索,获取识别文本的定位并基于位置选择对应的文本内容。

【技术特征摘要】
1.一种基于语音识别的文本定位和选择方法,其特征在于,在终端上通过用户口述需要选取的内容,在终端或系统进行语音识别,转换为文字并以识别结果为关键词发起当前活动窗口的文本内容的搜索,获取识别文本的定位并基于位置选择对应的文本内容。2.如权利要求1所述,终端是包含各种固定或便携的终端设备,其特征在于,终端包含了传统电脑,手机,平板电脑等支持语音获取和网络功能的各种终端设备。3.如权利要求1所述,用户口述部分内容片段,终端记录该语音并进行识别,其特征在于,用户口述的内容片段,终端通过麦克风获取和记录用户语音数据,转换为语音识别要求的语音格式,根据终端设备软硬件识别能力选择在终端进行语音识别,或通过以服务方式开放的系统端语音识别接口请求系统进行语音识别,获取语音对应的文本。4.如权利要求3所述,终端获取语音内容后在终端本...

【专利技术属性】
技术研发人员:顾健
申请(专利权)人:上海博路信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1