一种基于Android操作系统的语音识别文字方法技术方案

技术编号:39296039 阅读:8 留言:0更新日期:2023-11-07 11:03
本发明专利技术涉及语音识别文字技术领域,本发明专利技术涉及一种基于Android操作系统的语音识别文字系统及方法,旨在通过移动设备将人类语音录音转换为文字,并提供便利性、高准确性和隐私保护。在实施本发明专利技术的技术中,用户可以使用Android手机或Android平板等Android设备进行录音操作。用户可以录制各种类型的声音,如会议记录、讲座、语音备忘录等。录音文件被传输到语音识别模块进行处理。语音识别模块基于机器学习算法和语音识别技术,通过深度神经网络等模型训练,将声音转换为文字。这种技术可以实现高准确性和鲁棒性(即健壮性、稳健性),能够准确识别多种语音。识别得到的文字可以通过Android设备进行输出。用户可以选择将文字文件保存在设备本地,方便随时查看、编辑和分享。编辑和分享。编辑和分享。

【技术实现步骤摘要】
一种基于Android操作系统的语音识别文字方法


[0001]本专利技术涉及语音识别文字
,具体为一种基于Android操作系统的语音识别文字方法。

技术介绍

[0002]在移动设备的普及和功能的不断增强下,人们已经习惯使用手机进行语音录制,将重要的对话及内容使用语音的方式记录下来。
[0003]但是,部分语音内容需要将其转化为文字内容,现有的转化方式需要依赖于其他设备或在线服务APP,语音转化方式较为麻烦,用户使用较为不变,转化速度较慢,因此,开发一种能够在Android设备上实现录音识别文字的技术对于用户方便、快捷地进行录音转文字操作具有重要意义。

技术实现思路

[0004]本专利技术的目的在于提供基于Android操作系统的录音识别文字技术,以解决上述
技术介绍
提出方便用户,提升工作、办公效率的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于Android系统的语音识别文字系统,由APP音频采集设备、任务分发服务器、RabbitMQ消息服务器、Mongodb数据库、预先训练好的模型、对象存储服务器及集群管理服务组成;
[0006]任务分发服务器负责接收APP端用户上传的声音采样,并由RabbitMQ消息服务器向预先训练好的模型进行分发;Mongodb数据库负责存储待处理语音解码任务;对象存储服务器存储解码和处理后的文本转写结果。
[0007]优选地,预先训练好的模型一般都是基于机器学习算法训练得到的,例如隐马尔可夫模型(Hidden Markov Model,HMM)和循环神经网络(Recurrent Neural Networks,RNN)。
[0008]一种基于Android系统的语音识别文字处理方法,包括以下步骤:
[0009]A、用户通过APP调用系统录音设备;
[0010]B、录音设备将声音信号以离散的方式采样;
[0011]C、采用噪音消除算法来降低噪音的影响;
[0012]D、降噪后的声音采样上传到任务分发服务器;
[0013]E、任务分发服务器在Mongodb数据库中创建一条新任务记录;
[0014]F、任务分发服务器通过RabbitMQ消息队列广播任务;
[0015]G、语音识别系统将接收到的语音信号进行特征提取,再与预先训练好的模型进行匹配,以识别语音中的单词、短句或者连续语音;
[0016]H、预先训练好的模型将匹配好的文字上传到对象存储服务器;
[0017]I、预先训练好的模型通过RabbitMQ消息队列通知任务处理成功;
[0018]J、任务分发服务器将任务处理完毕的结果通过URL下发给APP;
[0019]K、用户在APP中下载处理好的结果,以文本的形式输出。
[0020]优选地,步骤E中任务分发服务器在Mongodb数据库创建的任务记录格式为:设定数据表speech2text,在数据表speech2text使用voice标签表示待识别语音文件路径,使用taskType标签表示任务类型:包括语音识别、语音翻译,使用taskStatus标签表示任务状态,包括:待处理、已处理和处理完成。
[0021]优选地,步骤F中RabbitMQ消息队列广播任务采用/new_voice_task标签表示,预先训练好的模型收到了/new_voice_task标签的新消息后,步骤H中预先训练好的模型使用Mongodb数据库的findOneAndUpdae函数领取新任务,若Mongodb数据库中的数据表speech2text中存在任务状态为待处理的任务记录,该记录将被更新为处理中,并且将任务记录返回给预先训练好的模型中的某台识别处理机;若数据表speech2text中没有任何任务记录状态为待处理,预先训练好的模型的识别处理机将继续等待下一次RabbitMQ的新任务通知。
[0022]优选地,步骤G中预先训练好的模型的识别处理机对语音文件识别转换方法为:
[0023]语音识别处理机会从语音信号中提取有意义的特征,并将这些特征与预先训练好的模型进行匹配,以识别语音中的单词、短语或连续语音。
[0024]优选地,步骤H中预先训练好的模型在进行语音识别匹配后,会生产一个或多个可能的文本转写结果,这些结果的得分可以代表识别的置信度,通常会使用解码算法来选择最佳的转写结果,并进行后处理,最后,将转写结果以文本的形式输出,可以保存到文件中或者通过其他方式呈现给用户。
[0025]与现有技术相比,本专利技术的有益效果是:
[0026]1、进一步提升语音识别的准确性和性能是一个重要的创新方向。通过引入更先进的深度学习模型、更大规模的训练数据和更优化的特征提取算法,可以提高语音识别的准确度,减少错误转写并解决特定口音和方言的挑战;
[0027]2、优化语音转文字系统的实时性能和响应时间,使其能够在实时通信、语音转写、远程会议等应用中提供即时的文本转写功能。这需要进行技术优化,包括模型压缩、硬件加速、并行计算等,以加速语音转写的处理速度,并降低延迟。
[0028]3、开发能够支持多种语言和跨语言转写的技术是一个重要的创新领域。这涉及到针对多种语言的声学和语言建模、多语言语音数据的收集和标注、跨语言文本分析等方面的研究和开发。
[0029]除了简单的文本转写,将上下文感知和语义理解引入实时语音转写可以提供更加丰富和可读性强的文本输出,例如,通过理解语义、上下文信息和用户意图,系统可以准确地区分同音异义词、纠正发音错误,并根据上下文适当地添加标点符号和断句。
附图说明
[0030]图1为本专利技术语音识别文字处理方法步骤图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于
本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]请参阅图1,本专利技术提供一种技术方案:
[0033]一种基于Android系统的语音识别文字系统,由APP音频采集设备、任务分发服务器、RabbitMQ消息服务器、Mongodb数据库、预先训练好的模型、对象存储服务器及集群管理服务组成;
[0034]任务分发服务器负责接收APP端用户上传的声音采样,并由RabbitMQ消息服务器向预先训练好的模型进行分发;Mongodb数据库负责存储待处理语音解码任务;对象存储服务器存储解码和处理后的文本转写结果。
[0035]预先训练好的模型一般都是基于机器学习算法训练得到的,例如隐马尔可夫模型(Hidden Markov Model,HMM)和循环神经网络(Recurrent Neural Networks,RNN)。
[0036]一种基于Android系统的语音识别文字处理方法,包括以下步骤:
...

【技术保护点】

【技术特征摘要】
1.一种基于Android系统的语音识别文字系统,其特征在于:由APP音频采集设备、任务分发服务器、RabbitMQ消息服务器、Mongodb数据库、预先训练好的模型、对象存储服务器及集群管理服务组成;任务分发服务器负责接收APP端用户上传的声音采样,并由RabbitMQ消息服务器向预先训练好的模型进行分发;Mongodb数据库负责存储待处理语音解码任务;对象存储服务器存储解码和处理后的文本转写结果。2.根据权利要求1所述的一种基于Android系统的语音识别文字系统,其特征在于:预先训练好的模型一般都是基于机器学习算法训练得到的,例如隐马尔可夫模型(Hidden Markov Model,HMM)和循环神经网络(Recurrent Neural Networks,RNN)。3.一种基于Android系统的语音识别文字处理方法,其特征在于:包括以下步骤:A、用户通过APP调用系统录音设备;B、录音设备将声音信号以离散的方式采样;C、采用噪音消除算法来降低噪音的影响;D、降噪后的声音采样上传到任务分发服务器;E、任务分发服务器在Mongodb数据库中创建一条新任务记录;F、任务分发服务器通过RabbitMQ消息队列广播任务;G、语音识别系统将接收到的语音信号进行特征提取,再与预先训练好的模型进行匹配,以识别语音中的单词、短句或者连续语音;H、预先训练好的模型将匹配好的文字上传到对象存储服务器;I、预先训练好的模型通过RabbitMQ消息队列通知任务处理成功;J、任务分发服务器将任务处理完毕的结果通过URL下发给APP;K、用户在APP中下载处理好的结果,以文本的形式输出。4.根据权利要求3所述的一种基于Android系统的语音识别文字处理方法,其特征在于:步骤E中任务分发服务器在Mongodb数据库创建的...

【专利技术属性】
技术研发人员:李海帆
申请(专利权)人:上海砾捷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1