将语音转换成文本的方法、系统、装置、设备及存储介质制造方法及图纸

技术编号:30641379 阅读:18 留言:0更新日期:2021-11-04 00:38
本申请提出一种将语音转换成文本的方法、系统、装置、设备及存储介质,该方法包括:从客户端包括的数据转换接口获得待转换的语音数据;通过预设声学服务模块和预设编解码脚本将语音数据转换为对应的文本数据。本申请在用户终端本地设置预设声学服务模块及预设编解码脚本,或用户终端设置预设编解码脚本,且服务器配置预设声学服务模块。客户端中设置数据转换接口,通过数据转换接口即可访问语音识别服务。任意客户端中都可设置数据转换接口,任意能安装客户端的设备都可使用语音识别服务,不用购买任何特定设备,也无需安装额外应用程序,不会增加用户终端上安装的应用程序数量,节省用户终端的存储资源和计算资源,降低语音识别服务的使用成本。识别服务的使用成本。识别服务的使用成本。

【技术实现步骤摘要】
将语音转换成文本的方法、系统、装置、设备及存储介质


[0001]本申请属于数据处理
,具体涉及一种将语音转换成文本的方法、系统、装置、设备及存储介质。

技术介绍

[0002]随着语音技术的发展,自动语音识别技术已经被广泛地应用于生活的各个领域,实现将语音转换为文本,大大方便了人们的生活,如将会议录音转成文本作为会议纪要发送给参会人员;将记者采访的录音转成文本,在此基础上编辑成新闻稿等。
[0003]相关技术中通常采用特定的语音识别软件进行语音与文本之间的转换,用户需要下载并安装这些语音识别软件,增加了用户终端中安装的软件数量,占用用户终端的大量存储空间和计算资源。而且不同厂商提供的语音识别软件还可能基于特定的硬件才能运行,导致产品的价格昂贵,不方便携带。

技术实现思路

[0004]本申请提出一种将语音转换成文本的方法、系统、装置、设备及存储介质,客户端中设置有数据转换接口,通过数据转换接口访问预设声学服务模块及预设编解码脚本提供的语音识别服务。任意客户端中都可以设置数据转换接口,任意能够安装客户端的设备都可以使用该语音识别服务,不用购买任何特定设备,也无需下载并安装额外的应用程序,不会增加用户终端上安装的应用程序的数量,节省了用户终端的存储资源和计算资源,降低了用户使用语音识别服务的成本。
[0005]本申请第一方面实施例提出了一种将语音转换成文本的方法,应用于用户终端,包括:
[0006]从客户端包括的数据转换接口获得待转换的语音数据;
[0007]通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,所述预设声学服务模块用于将所述语音数据转换为对应的语音编码,所述预设编解码脚本用于将所述语音编码转换为对应的文本数据。
[0008]在本申请的一些实施例中,所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,包括:
[0009]建立与所述服务器之间的全双工通信连接,所述服务器中配置有所述预设声学服务模块;
[0010]基于所述全双工通信连接,发送所述语音数据给所述服务器,以使所述服务器通过所述预设声学服务模块将所述语音数据转换为对应的语音编码;
[0011]接收所述服务器返回的所述语音编码,通过本地的所述预设编解码脚本将所述语音编码转换为对应的文本数据。
[0012]在本申请的一些实施例中,所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,包括:
[0013]调用本地插件库中包括的预设声学服务模块,将所述语音数据转换为对应的语音编码;
[0014]调用所述本地插件库中包括的预设编解码脚本,将所述语音编码转换为文本数据。
[0015]在本申请的一些实施例中,所述将所述语音数据转换为对应的语音编码,包括:
[0016]按照预设分帧规则将所述语音数据划分为多个音频帧;
[0017]并行提取每个音频帧对应的声学特征信息;
[0018]根据每个音频帧对应的声学特征信息,从预设语音库中分别匹配每个音频帧对应的语音编码。
[0019]在本申请的一些实施例中,所述将所述语音编码转换为文本数据,包括:
[0020]从所述预设语音库中分别匹配出每个音频帧的语音编码对应的文本信息;
[0021]获取对所述语音数据进行划分操作产生的划分记录信息;
[0022]根据所述划分记录信息,将每个音频帧对应的文本信息拼接为所述语音数据对应的文本数据。
[0023]在本申请的一些实施例中,所述方法还包括:
[0024]通过录音设备录制所述语音数据的过程中,若通过所述预设编解码脚本判断出所述语音数据不符合预设转换条件,则控制所述录音设备停止录音,和/或,显示提示信息,所述提示信息用于提示所述语音数据不符合所述预设转换条件。
[0025]在本申请的一些实施例中,所述将所述语音数据转换为对应的文本数据之后,还包括:
[0026]通过脚本引擎获取所述客户端的当前界面的文档对象模型DOM结构,根据所述DOM结构将所述文本数据显示在所述当前界面的预设位置处;或者,
[0027]将所述文本数据存储为预设文件格式的文档。
[0028]在本申请的一些实施例中,所述从所述客户端包括的数据转换接口获得待转换的语音数据,包括:
[0029]检测到所述客户端包括的数据转换接口的触发事件,通过录音设备录制待转换的语音数据;或者,通过所述数据转换接口接收用户上传的音频文件,将所述音频文件确定为待转换的语音数据。
[0030]本申请第二方面的实施例提供了一种将语音转换成文本的方法,应用于服务器,包括:
[0031]接收用户终端发送的待转换的语音数据,所述语音数据是通过所述用户终端中的客户端包括的数据转换接口获得的;
[0032]通过预设声学服务模块将所述语音数据转换为对应的语音编码;
[0033]发送所述语音编码给所述用户终端,以使所述用户终端通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据。
[0034]在本申请的一些实施例中,所述通过预设声学服务模块将所述语音数据转换为对应的语音编码,包括:
[0035]通过预设声学服务模块按照预设分帧规则将所述语音数据划分为多个音频帧;
[0036]并行提取每个音频帧对应的声学特征信息;
[0037]根据每个音频帧对应的声学特征信息,从预设语音库中分别匹配每个音频帧对应的语音编码。
[0038]在本申请的一些实施例中,所述接收用户终端发送的待转换的语音数据之前,还包括:
[0039]接收用户终端的连接请求,建立与所述用户终端之间的全双工通信连接,基于所述全双工通信连接与所述用户终端进行数据交互。
[0040]本申请第三方面的实施例提供了一种将语音转换成文本的系统,所述系统包括用户终端和服务器;所述用户终端的本地插件库中包括预设声学服务模块和预设编解码脚本,和/或,所述用户终端本地配置有所述预设编解码脚本且所述服务器中配置有所述预设声学服务模块;
[0041]所述用户终端,用于从客户端包括的数据转换接口获得待转换的语音数据;通过本地的预设声学服务模块或者通过所述服务器中的所述预设声学服务模块将所述语音数据转换为对应的语音编码,通过本地的预设编解码脚本将所述语音编码转换为对应的文本数据;
[0042]所述服务器,用于接收所述用户终端发送的所述语音数据;通过预设声学服务模块将所述语音数据转换为对应的语音编码;发送所述语音编码给所述用户终端。
[0043]本申请第四方面的实施例提供了一种将语音转换成文本的装置,应用于用户终端,包括:
[0044]获取模块,用于从客户端包括的数据转换接口获得待转换的语音数据;
[0045]转换模块,用于通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,所述预设声学服务模块用于将所述语音数据转换为对应的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种将语音转换成文本的方法,其特征在于,应用于用户终端,包括:从客户端包括的数据转换接口获得待转换的语音数据;通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,所述预设声学服务模块用于将所述语音数据转换为对应的语音编码,所述预设编解码脚本用于将所述语音编码转换为对应的文本数据。2.根据权利要求1所述的方法,其特征在于,所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,包括:建立与所述服务器之间的全双工通信连接,所述服务器中配置有所述预设声学服务模块;基于所述全双工通信连接,发送所述语音数据给所述服务器,以使所述服务器通过所述预设声学服务模块将所述语音数据转换为对应的语音编码;接收所述服务器返回的所述语音编码,通过本地的所述预设编解码脚本将所述语音编码转换为对应的文本数据。3.根据权利要求1所述的方法,其特征在于,所述通过预设声学服务模块和预设编解码脚本将所述语音数据转换为对应的文本数据,包括:调用本地插件库中包括的预设声学服务模块,将所述语音数据转换为对应的语音编码;调用所述本地插件库中包括的预设编解码脚本,将所述语音编码转换为文本数据。4.根据权利要求3所述的方法,其特征在于,所述将所述语音数据转换为对应的语音编码,包括:按照预设分帧规则将所述语音数据划分为多个音频帧;并行提取每个音频帧对应的声学特征信息;根据每个音频帧对应的声学特征信息,从预设语音库中分别匹配每个音频帧对应的语音编码。5.根据权利要求4所述的方法,其特征在于,所述将所述语音编码转换为文本数据,包括:从所述预设语音库中分别匹配出每个音频帧的语音编码对应的文本信息;获取对所述语音数据进行划分操作产生的划分记录信息;根据所述划分记录信息,将每个音频帧对应的文本信息拼接为所述语音数据对应的文本数据。6.根据权利要求1

5任一项所述的方法,其特征在于,所述方法还包括:通过录音设备录制所述语音数据的过程中,若通过所述预设编解码脚本判断出所述语音数据不符合预设转换条件,则控制所述录音设备停止录音,和/或,显示提示信息,所述提示信息用于提示所述语音数据不符合所述预设转换条件。7.根据权利要求1

5任一项所述的方法,其特征在于,所述将所述语音数据转换为对应的文本数据之后,还包括:通过脚本引擎获取所述客户端的当前界面的文档对象模型DOM结构,根据所述DOM结构将所述文本数据显示在所述当前界面的预设位置处;或者,将所述文本数据存储为预设文件格式的文档。
8.根据权利要求1

5任一项所述的方法,其特征在于,所述从所述客户端包括的数据转换接口获得待转换的语音数据,包括:检测到所述客户端包括的数据转换接口的触发事件,通过录音设备录制待转换的语音数据;或者,通过所述数据转换接口接收用户上传的音频文件,将所述音频文件确定为待转换的语音数据。9.一种将语音转换成文本的方法,其...

【专利技术属性】
技术研发人员:孙得心
申请(专利权)人:北京新氧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1