【技术实现步骤摘要】
一种基于LLM大模型及RPA的语音智能控制系统及方法
[0001]本专利技术属于人工智能行业产品领域,涉及语音智能控制技术,具体是一种基于
LLM
大模型及
RPA
的语音智能控制系统及方法
。
技术介绍
[0002]目前,对话式人机交互产品的形态日益丰富,应用场景及实现功能逐步增多,例如对话机器人
(chatbot)
以及搭载
AI
语音助手的各类智能语音交互硬件;同时,语音识别
、
语音转写
、
语音合成等智能语音能力在教育
、
医疗
、
司法
、
公安
、
互联网等垂直领域的应用也不断拓宽加厚
。
同时随着视频图像识别技术的突破和成熟,多模态智能语音的应用场景越来越广泛和丰富
。
[0003]目前语音交互多集中在智慧家庭,在办公以及工控领域尚处于起步阶段,亦未有轻量级
、
即插即用型产品平台的大规模应用,本 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
LLM
大模型及
RPA
的语音智能控制系统,其特征在于,包括:语音采集终端,用于进行语音片段采集并发送至语音控制客户端;语音控制客户端,用于接收所述语音采集终端发送的语音片段;并将接收到的所述语音片段发送至中央控制单元;中央控制单元,用于接收语音控制客户端发送的语音片段;并将将语音控制客户端发送的语音片段转载至语音识别单元
、
将接收到的语音文本发送至
LLM
大模型算法服务单元以及将语音播报内容文本传递给语音合成服务单元;语音识别单元,基于语音识别技术将语音片段实时转化为语音文本,将转化后的语音文本反馈回中央控制单元;
LLM
大模型算法服务单元,用于根据语音文本获取说话人的意图;且中央控制单元根据
LLM
大模型算法服务单元反馈的意图,根据预置规则获得控制指令以及对应语音播报内容文本;预置规则为
key value
键值对,
key
为意图代码,
value
包含控制指令和指令动作脚本;语音合成服务单元,用于将语音播报内容文本转换为音频流并返回中央控制单元;中央控制单元还用于将语音播报内容文本转换的音频流返回至语音控制客户端,语音控制客户端通过扬声器实时播放音频流以及中央控制单元将控制指令和指令动作脚本传递给语音智控客户端;语音智控客户端将控制指令和指令动作脚本共享至
RPA
客户端控制组件;
RPA
客户端控制组件,用于接收语音智控客户端发送的控制指令,并通过集成屏幕抓取和业务流程自动化管理技术,模拟用户鼠标点击
、
键盘输入操作以及根据指令动作脚本按需执行
。2.
如权利要求1所述的一种基于
LLM
大模型及
RPA
的语音智能控制系统,其特征在于,语音采集终端为麦克风,通过麦克风采集说话人的声音,即语音片段
。3.
如权利要求1所述的一种基于
LLM
大模型及
RPA
的语音智能控制系统,其特征在于,所述语音识别单元基于语音识别技术将语音片段实时转化为语音文本的过程包括:步骤
S101
:预处理:语音识别单元对语音片段进行预处理;预处理包括去除噪音
、
降低回声;步骤
S102
:特征提取:将语音片段转化为表示语音特征的数字特征向量;步骤
S103
:建模与训练:使用训练数据集进行建模和训练;步骤
S104
:建模与训练:基于训练好的模型,对提取到的特征向量序列进行解码,寻找最可能的语音文本序列;步骤
S105
:后处理与输出:对解码得到的语音文本序列进行后处理,将解码得到的语音文本输出为文字形式
。...
【专利技术属性】
技术研发人员:肖波,程峰,
申请(专利权)人:合肥善达信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。