一种基于ChatGLM模型的办公语音辅助系统及其使用方法技术方案

技术编号:38760606 阅读:16 留言:0更新日期:2023-09-10 10:33
一种基于ChatGLM模型的办公语音辅助系统及其使用方法,其中系统包括语音收集系统、处理系统和语音输出系统,所述语音收集系统包括收集设备,语音输出系统包括语音输出设备,处理系统包括AI处理器、接收芯片、转换芯片、输出芯片,其中接受芯片与语音收集系统连接,所述转换芯片由第一转换芯片和第二转换芯片组成,其中第一转换芯片与接受芯片连接,将接受进来的语音转成文字的形式传送给AI处理器,第二转换芯片与输出芯片连接,将文本转成语音的形式传输出去。传输出去。传输出去。

【技术实现步骤摘要】
一种基于ChatGLM模型的办公语音辅助系统及其使用方法


[0001]本专利技术涉及AI大型语言模型对话技术、语音转文字与文字转语音
,具体涉及一种基于ChatGLM模型的办公语音辅助系统。

技术介绍

[0002]市面上接近本专利技术的产品有微软公司的Office 365Copilot,它使用OpenAI公司的ChatGPT 4.0作为AI处理器,通过微软公司的Word、Excel、PowerPoint、Outlook等产品完成办公人员与AI处理器的交互与输入输出。
[0003]现有技术存在的问题是ChatGPT 4.0AI处理器占用硬件资源极大,对于一些在内网办公无法访问外部网络的环境,无法私有化部署。为此,设计一种基于ChatGLM模型的办公语音辅助系统,以克服上述问题。

技术实现思路

[0004]本专利技术的目的在于克服现有技术存在的不足,而提供一种基于ChatGLM模型的办公语音辅助系统,其基于ChatGLM模型的语义识别实现,通过语音文字转换技术,实现人与AI交互,通过ChatGLM模型的大量数据帮助人完成办公任务,简化办公流程,提升办公效率。
[0005]本专利技术是通过如下的技术方案予以实现的:一种基于ChatGLM模型的办公语音辅助系统,它包括语音收集系统、处理系统和语音输出系统,所述语音收集系统包括收集设备,语音输出系统包括语音输出设备,处理系统包括AI处理器、接收芯片、转换芯片、输出芯片,其中接受芯片与语音收集系统连接,所述转换芯片由第一转换芯片和第二转换芯片组成,其中第一转换芯片与接受芯片连接,将接受进来的语音转成文字的形式传送给AI处理器,第二转换芯片与输出芯片连接,将文本转成语音的形式传输出去。
[0006]作为优选:所述AI处理器包括历史存储和AI语言模型两部分,其中历史存储与AI语言模型数据互通,AI语言模型分别与第一转换芯片或第二转换芯片连接。
[0007]一种应用上述的基于ChatGLM模型的办公语音辅助系统的使用方法,所述方法包括如下步骤:
[0008]1)输入收集:接受办公人员语音信息,将语音信息传输给后续处理模块;
[0009]2)语音识别:将办公人员的语音信息转换为ChatGLM可处理的文本信息,将文本信息传输给ChatGLM模型的处理器处理;
[0010]3)基于ChatGLM模型的AI处理器:ChatGLM模型的AI处理器内设置有历史存储和AI语言模型两部分,接受到语音转换器处理后的文本信息之后,提取存储在AI处理器中的办公人员的历史对话上下文,使用ChatGLM模型联合历史对话上下文信息分析本次文本信息,并得出对应的回答内容,将回答内容传输给文本转换器;
[0011]4)文本转换:将AI控制器的回答内容转换为中文语音信息,并将中文语音信息传输到音频输出器;
[0012]5)音频输出:接收音频内容,通过扬声器播放语音信息。
[0013]作为优选:所述步骤3)中的历史存储的工作方式为:
[0014]每个用户都有一个随机32位字符串作为身份识别,对话历史存储为一个哈希表,而用户的32位身份识别字符串就是哈希表的key,每次对话识别出的问题和AI给出的回答都会存储在每个用户key对应的value下,作为对话上下文,即对话历史,在每次对话中都会附带此对话历史。
[0015]作为优选:所述步骤3)中AI语言模型分为两个阶段,第一阶段采用无监督的预训练,第二阶段监督下游任务微调,最终得到最终的语言模型,其中第一阶段无监督预训原理如下对于一系列语料(x1,x2,...,x
m
),使用语言模型去最大化语言模型的极大似然:
[0016]L1(X)=∑
i
logP(x
i
|x
i

k
,...,x
i
‑1:θ)
[0017]然后使用Transformer Decoder语言模型,在处理输入的文本加上位置信息的前馈神经网络,最后使用softmax输出目标词的概念分布:
[0018]h0=UW
e
+W
p
[0019]h
l
=transformer_block(h
l
‑1)
[0020]P(u)=softmax(h
n
W
Te
)
[0021]第二阶段监督任务微调,是对第一阶段的预训练得到的语言模型的参数,根据监督任务进行调整,假设有标签数据集C,里面的结构是(x1,x2,...,x
m
,y),输入(x1,x2,...,x
m
)经过预训练的模型获得输出向量h
ml
,然后经过线性层和softmax来预测标签:
[0022]P(y|x1,x2,...,x
m
)=softmax(h
ml
W
y
)
[0023]L2(C)=∑
x,y
logP(y|x1,...,x
m
)
[0024]这样可以通过对语言模型的辅助微调,提高监督模型的结果。最后的损失函数为:
[0025]L3(C)=L2(C)+λL1(C)。
[0026]本专利技术的有益效果如下:
[0027]1.使用的ChatGLM语言对话模型具有强大的自然语言处理能力:可以处理多种语言的文本,并且能够自然地理解和生成文本。
[0028]2.ChatGLM模型具有广泛的知识储备:经过了广泛的训练,掌握广泛的知识和信息,可以为办公人员提供有用的信息和回答。
[0029]3.基于深度学习神经网络的ChatGLM模型具备智能推理和推断能力:可以推断出文本之间的关系和逻辑,根据办公人员的问题来提供恰当的回答。
[0030]4.基于深度学习神经网络的语音识别功能,相比与现有的语音识别方案更加准确,语音识别功能的引入使办公人员与AI的交互更加方便。
[0031]5.基于深度学习神经网络的文本转语音功能,相比与现有的语音识别方案,转换的语音信息更加自然,通过语音来播报AI助手的回答,提高办公人员的工作效率。
附图说明
[0032]图1为本专利技术的流程图。
具体实施方式
[0033]为使本领域的普通技术人员更加清楚地理解本专利技术的目的、技术方案和优点,以下结合附图和实施例对本专利技术做进一步的阐述。
[0034]下面将结合附图对本专利技术作详细的介绍:如图1所示,一种基于ChatGLM模型的办公语音辅助系统,它包括语音收集系统、处理系统和语音输出系统,所述语音收集系统包括收集设备,语音输出系统包括语音输出设备,处理系统包括AI处理器、接收芯片、转换芯片、输出芯片,其中接受芯片与语音收集系统连接,所述转换芯片由第一转换芯片和第二转换芯片组成,其中第一转换芯片与接受芯片连接,将接受进来的语音转成文字的形式传送给AI处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ChatGLM模型的办公语音辅助系统,它包括语音收集系统、处理系统和语音输出系统,其特征在于:所述语音收集系统包括收集设备,语音输出系统包括语音输出设备,处理系统包括AI处理器、接收芯片、转换芯片、输出芯片,其中接受芯片与语音收集系统连接,所述转换芯片由第一转换芯片和第二转换芯片组成,其中第一转换芯片与接受芯片连接,将接受进来的语音转成文字的形式传送给AI处理器,第二转换芯片与输出芯片连接,将文本转成语音的形式传输出去。2.根据权利要求1所述的基于ChatGLM模型的办公语音辅助系统,其特征在于:所述AI处理器包括历史存储和AI语言模型两部分,其中历史存储与AI语言模型数据互通,AI语言模型分别与第一转换芯片或第二转换芯片连接。3.根据权利要求1或2所述的基于ChatGLM模型的办公语音辅助系统的使用方法,其特征在于:所述方法包括如下步骤:1)输入收集:接受办公人员语音信息,将语音信息传输给后续处理模块;2)语音识别:将办公人员的语音信息转换为ChatGLM可处理的文本信息,将文本信息传输给ChatGLM模型的处理器处理;3)基于ChatGLM模型的AI处理器:ChatGLM模型的AI处理器内设置有历史存储和AI语言模型两部分,接受到语音转换器处理后的文本信息之后,提取存储在AI处理器中的办公人员的历史对话上下文,使用ChatGLM模型联合历史对话上下文信息分析本次文本信息,并得出对应的回答内容,将回答内容传输给文本转换器;4)文本转换:将AI控制器的回答内容转换为为中文语音信息,并将中文语音信息传输到音频输出器;5)音频输出:接收音频内容,通过扬声器播放语音信息。4.根据权利要求3所述的基于ChatGLM模型的办公语音辅助系统的使用方法,其特征在于:所述步骤3)中的历史存储的工作方式为:每个用户都有一个随机32位字符串作为身份识别,对话历史存储为一个哈希表,而用户的32位身份识别字符串就是哈希表的key,每次对话识别出的问题和AI给出的回答都会存储在每个用户key对应的value下,作为对话上下文,即对话历...

【专利技术属性】
技术研发人员:李晓鹏马亮李强沈生宋骐谈海生杜皓华李向阳
申请(专利权)人:德清阿尔法创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1