一种基于chatGPT的智能方言语音识别方法技术

技术编号:39183628 阅读:6 留言:0更新日期:2023-10-27 08:31
本发明专利技术公开了一种基于chatGPT的智能方言语音识别方法,属于语音识别技术领域,包括如下步骤:S1:实时采集用户输入的语音信息,且对用户输入的语音信息进行处理,确定出用户输入的语音特征信息及语音特征类别;S2:根据语音特征类别,索引智能语音库内的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对语音信息进行语音识别,确定出基于chatGPT的用户输入的方言语音。本发明专利技术解决了现有由于不同地区的用户,其普通话并不完全标准,带有地区方言,其不能对方言语音进行较好的识别,导致方言语音识别效果差的问题,本发明专利技术可对方言语音进行较好的识别,提升方言语音识别效果。提升方言语音识别效果。提升方言语音识别效果。

【技术实现步骤摘要】
一种基于chatGPT的智能方言语音识别方法


[0001]本专利技术涉及语音识别
,具体为一种基于chatGPT的智能方言语音识别方法。

技术介绍

[0002]语音识别是一门交叉学科,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域;语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一;很多专家都认为语音识别技术是2000年至2010年间信息
十大重要的科技发展技术之一;语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
[0003]公开号为CN113889075A的中国专利公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:获取待识别语音的语谱图;基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果,从语谱图提取再识别语谱片段;基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到再识别语谱片段涉及的目标语种;其中,若干第二滑窗的尺寸各不相同,且第二滑窗的尺寸小于第一滑窗的尺寸,该专利能够提高识别语音所涉及语种的准确性。但是该专利在实际使用过程中存在以下缺陷:
[0004]由于不同地区的用户,其普通话并不完全标准,带有地区方言,其不能对方言语音进行较好的识别,导致方言语音识别效果差。

技术实现思路

[0005]本专利技术的目的在于提供一种基于chatGPT的智能方言语音识别方法,可对方言语音进行较好的识别,提升方言语音识别效果,解决了上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于chatGPT的智能方言语音识别方法,包括如下步骤:
[0008]S1:实时采集用户输入的语音信息,且对用户输入的语音信息进行检索及计算处理,确定出用户输入的语音特征信息,基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别;
[0009]S2:根据用户输入的语音特征类别,基于数据挖掘技术,索引智能语音库内存储的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatGPT的用户输入的方言语音。
[0010]优选的,所述S1中,实时采集用户输入的语音信息,执行以下操作:
[0011]利用传声器将用户输入的声音信号转换为电信号,确定出实时采集的用户输入的语音信号;
[0012]获取用户输入的语音信号,且对语音信号进行放大及滤波处理,确定出降噪后的语音信号;
[0013]获取降噪后的语音信号,且对语音信号进行调制及解调处理,确定出频率适应于传输的数字化语音信息。
[0014]优选的,所述S1中,对用户输入的语音信息进行检索及计算处理,执行以下操作:
[0015]获取用户输入的语音信息;
[0016]基于顺序检索方法,对用户输入的语音信息进行检索处理;
[0017]过滤掉对基于chatGPT的智能方言语音识别无价值的语音信息,确定出对基于chatGPT的智能方言语音识别有价值的语音信息;
[0018]获取对基于chatGPT的智能方言语音识别有价值的语音信息,且对语音信息进行计算处理;
[0019]基于边缘计算,确定出用户输入的语音特征信息。
[0020]优选的,基于顺序检索方法,对用户输入的语音信息进行检索处理,包括:
[0021]针对所述用户输入的语音信息进行特征提取,获得目标特征;其中,所述目标特征包括短时能量、过零率和声道特征;
[0022]利用所述目标特征对用户输入的语音信息进行信息评价,获得信息评价参数;其中,所述信息评价参数通过如下公式获取:
[0023]S=λ1·
S1+λ2·
S2+λ3·
S3[0024][0025][0026][0027]其中,S表示信息评价参数;S1、S2和S3分别表示第一评价因子、第二评价因子和第三评价因子;λ1、λ2和λ3分别表示第一评价因子、第二评价因子和第三评价因子对应的预设的权重;n表示一个语音信息划分后对应的帧数,并且,每一帧对应一个时间窗口;E
1i
表示第i个时间窗口的语音信息对应的能量值;E0表示预设的能量阈值;N
i
表示第i个时间窗口对应的语音信息的过零次数;N0表示预设的过零次数阈值;N
max
表示用户输入的语音信息中所包含的时间窗口对应的最大过零次数;f
i
表示第i个时间窗口对应的语音信息的共振峰频率;f0表示预设的共振峰频率阈值;f
max
表示用户输入的有效语音信息的最大共振峰频率;H
i
表示第i个时间窗口对应的语音信息的共振峰幅度;H0表示预设的共振峰幅度阈值;H
max
表示用户输入的有效语音信息的最大共振峰幅度;
[0028]将所述信息评价参数与预设的评价参数阈值进行比较,当所述信息评价参数不低于预设的评价参数阈值时,则将所述信息评价参数对应的语音信息作为有效语音信息;
[0029]对用户输入的有效语音信息进行检索处理。
[0030]优选的,对用户输入的有效语音信息进行检索处理,包括:
[0031]提取所述有效语音信息,并将所述有效语音信息与预先构建的语音索引进行匹
配,提取匹配获得的多个语音索引项;
[0032]从每个所述语音索引项所包含的特征信息和有效语音信息所包含的目标特征之中提取相同类型的特征信息;
[0033]利用所述相同类型的特征信息获取所述语音索引项与有效语音信息之间的相似度;其中,所述相似度通过如下公式获取:
[0034][0035][0036]其中,A和B分别表示语音索引项所包含的特征信息对应的特征向量和有效语音信息所包含的目标特征对应的特征向量;"||||"表示向量的模;R表示相似度跟调因数;S1、S2和S3分别表示第一评价因子、第二评价因子和第三评价因子;
[0037]根据所述相似度由高到低的顺序对所述语音索引项进行排序,并将所述相似度对应数值最高的索引项作为最终索引结果;
[0038]利用所述最终索引结果生成语音检索后与用户输入的所述有效语音信息对应的音频文件和文本文件。
[0039]优选的,所述S1中,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别,执行以下操作:
[0040]获取语音特征信息;
[0041]基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出语音特征提取结果;
[0042]基于语音特征提取结果,且参照语音特征归类方法,确定出基于用户输入的语音特征信息的语音特征类别。
[0043]优选的,所述S2中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于chatGPT的智能方言语音识别方法,其特征在于,包括如下步骤:S1:实时采集用户输入的语音信息,且对用户输入的语音信息进行检索及计算处理,确定出用户输入的语音特征信息,基于卷积神经网络,对语音特征信息进行特征提取及学习,确定出用户输入的语音特征类别;S2:根据用户输入的语音特征类别,基于数据挖掘技术,索引智能语音库内存储的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对用户输入的语音信息进行语音识别,确定出基于chatGPT的用户输入的方言语音。2.根据权利要求1所述的一种基于chatGPT的智能方言语音识别方法,其特征在于:所述S1中,实时采集用户输入的语音信息,执行以下操作:利用传声器将用户输入的声音信号转换为电信号,确定出实时采集的用户输入的语音信号;获取用户输入的语音信号,且对语音信号进行放大及滤波处理,确定出降噪后的语音信号;获取降噪后的语音信号,且对语音信号进行调制及解调处理,确定出频率适应于传输的数字化语音信息。3.根据权利要求2所述的一种基于chatGPT的智能方言语音识别方法,其特征在于:所述S1中,对用户输入的语音信息进行检索及计算处理,执行以下操作:获取用户输入的语音信息;基于顺序检索方法,对用户输入的语音信息进行检索处理;过滤掉对基于chatGPT的智能方言语音识别无价值的语音信息,确定出对基于chatGPT的智能方言语音识别有价值的语音信息;获取对基于chatGPT的智能方言语音识别有价值的语音信息,且对语音信息进行计算处理;基于边缘计算,确定出用户输入的语音特征信息。4.根据权利要求3所述的一种基于chatGPT的智能方言语音识别方法,其特征在于:基于顺序检索方法,对用户输入的语音信息进行检索处理,包括:针对所述用户输入的语音信息进行特征提取,获得目标特征;其中,所述目标特征包括短时能量、过零率和声道特征;利用所述目标特征对用户输入的语音信息进行信息评价,获得信息评价参数;其中,所述信息评价参数通过如下公式获取:S=λ1·
S1+λ2·
S2+λ3·
S
33
其中,S表示信息评价参数;S1、S2和S3分别表示第一评价因子、第二评价因子和第三评价因子;λ1、λ2和λ3分别表示第一评价因子、第二评价因子和第三评价因子对应的预设的权重;n表示一个语音信息划分后对应的帧数,并且,每一帧对应一个时间窗口;E
1i
表示第i个时间窗口的语音信息对应的能量值;E0表示预设的能量阈值;N
i
表示第i个时间窗口对应的语音信息的过零次数;N0表示预设的过零次数阈值;N
max
表示用户输入的语音信息中所包含的时间窗口对应的最大过零次数;f
i
表示第i个时间窗口对应的语音信息的共振峰频率;f0表示预设的共振峰频率阈值;f
max
表示用户输入的有效语音信息的最大共振峰频率;H
i
表示第i个时间窗口对应的语音信息的共振峰幅度;H0表示预设的共振峰幅度阈值;H
max
表示用户输入的有效语音信息的最大共振峰幅度;将所述信息评价参数与预设的评价参数阈值进行比较,当所述信息评价参数不低于预设的评价参数阈值时,则将所述信息评价参数对应的语音信息作为有效语音信息;对用户输入的有效语音信息进行检索处理。5.根据权利要求4所述的一种基于chatGPT的智能方言语音识别方法,其特征在于:对用户输入的有效语音信息进行检...

【专利技术属性】
技术研发人员:苏文芝刘志豪冯高峰谢学广李永文陈平常小明郭兵李攀刘海菊姜东洋
申请(专利权)人:济源职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1