基于改进语音识别的电力智能交互方法及系统技术方案

技术编号：41360214 阅读：2 留言：0更新日期：2024-05-20 10:10

本发明专利技术涉及基于改进语音识别的电力智能交互方法及系统，包括以下步骤：步骤S1:构建电力领域的知识图谱;步骤S2:获取用户语音数据，并构建用户声纹库；步骤S3:基于Transformer构建端到端的语音识别模型，并使用用户声纹库中的数据对模型进行个性化训练；步骤S4:用户通过用户端输入语音，基于个性化语音识别模型进行语音识别，得到最终的文本结果；步骤S5:对最终的文本结果进行自然语言处理,将问题转换为计算机可理解的形式;步骤S6:将问题表示为语义向量，将问题的语义向量映射到知识图谱中，形成查询知识图谱的语义表示，并基于知识图谱的信息，回答用户提出的问题。本发明专利技术能够提供个性化、准确性高、智能化的交互体验，提升用户体验和工作效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能交互领域，尤其涉及一种基于改进语音识别的电力智能交互方法及系统。

技术介绍

1、电网人机交互终端对电网发展至关重要，随着电力系统规模的不断扩大和智能化水平的提升，交互技术不断的发展，但现有的语音交互无法准确地获取用户的输入数据，如此用户在进行信息交互时自然就会感到不符合预期，或者说交互不够准确，进而导致交互准确性较低的问题出现。

技术实现思路

1、为了解决上述问题，本专利技术的目的在于提供一种基于改进语音识别的电力智能交互方法及系统，能够提供个性化、准确性高、智能化的交互体验，提升用户体验和工作效率。

2、为实现上述目的，本专利技术采用以下技术方案：

3、一种基于改进语音识别的电力智能交互方法，包括以下步骤：

4、步骤s1:收集电力领域的相关数据和知识，建立实体间的关联关系，构建电力领域的知识图谱，包括实体、属性和关系;

5、步骤s2:获取用户语音数据，并构建用户声纹库；

6、步骤s3:基于transformer构建端到端的语音识别模型，并使用用户声纹库中的数据对模型进行个性化训练；

7、步骤s4:用户通过用户端输入语音，基于个性化训练后的语音识别模型进行语音识别，并使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果；

8、步骤s5:对最终的文本结果进行自然语言处理，包括分词、词性标注、实体识别,将问题转换为计算机可理解的形式;

9、步骤s6:

10、进一步的，所述步骤s1具体为：

11、步骤s11:收集来自电力行业的各种数据源，对数据进行清洗、整合和标注，提取出实体的属性信息；

12、步骤s12:利用决策树算法建立实体之间的关系模型，根据特征的重要性和关联性构建树结构，包括层次关系、关联关系和依赖关系，形成完整的知识图谱网络。

13、进一步的，所述步骤s12具体为：

14、（1）将实体属性作为特征，实体之间的关系作为目标标签；

15、（2）计算每个特征的信息增益，选择信息增益最大的特征作为节点的划分依据，计算每个特征对训练数据集的信息增益，并选择信息增益最大的特征作为划分依据；

16、；

17、；

18、其中，为信息增益，s是训练数据集,a是特征，是特征a对应的数据集；是特征a的一个取值v对应的子集,和分别是s和的熵；c是类别数量；是第i个类别在数据集s中出现的概率；其中，；

19、（3）使用选定的特征作为划分依据，构建决策树模型，并通过构建决策树模型，根据特征的重要性和关联性建立实体之间的关系模型，获取实体之间的层次关系、关联关系和依赖关系。

20、进一步的，所述步骤s2具体为：

21、步骤s21:收集不同用户的声音信号，包括语音指令、短语；

22、步骤s22:对采集的声音信号进行预处理，包括去噪、降采样处理；

23、步骤s23:使用梅尔频率倒谱系数，将声音信号转换为频谱图；

24、步骤s24:通过声纹特征提取算法，从频谱图中提取声纹特征向量；

25、步骤s25：将每个用户的声纹特征向量存储在声纹数据库中，建立用户声纹库。

26、进一步的，所述步骤s23具体为：

27、（1）对预处理后的声音信号通过一阶高通滤波进行预加重，并将声音信号分成若干帧；

28、；

29、；

30、其中，为预处理后的声音信号的时域波形，表示声音信号在时间点n的振幅值；为预加重系数；表示经过预加重处理后的声音信号；m为帧的索引，表示声音信号被分割成的多个帧之一；n表示时间点；为帧移；表示时间点n的第m帧的声音信号；

31、（2）对每帧应用汉明窗，以减少频谱泄漏；

32、（3）对每帧信号进行快速傅里叶变换，将时域信号转换为频域信号；

33、（4）将频谱图映射到梅尔频率域，通过一组a个梅尔滤波器计算每个频段的能量；

34、；

35、其中，为经过傅里叶变换后的信号，表示第m帧的第k个频率分量的复数幅度；经过梅尔滤波器组处理后的信号，表示第m帧第个梅尔频率倒谱系数；为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应；a代表梅尔滤波器组中的第a个滤波器；表示绝对值运算符；1≤≤a，1≤a≤a；

36、（5）对梅尔频率域的能量取对数，对取对数后的能量应用离散余弦变换，得到mfcc系数；

37、；

38、；

39、其中，为对数压缩后的信号，j表示第j个梅尔频率倒谱系数；为提取的mfcc系数的数量；为mfcc系数，表示第m帧第个梅尔频率倒谱系数；j为梅尔频率倒谱系数数量；

40、并将mfcc系数作为声音信号的频谱图表示。

41、进一步的，所述步骤s3具体为：

42、步骤s31: 获取声音信号数据集，包括语音样本和相应的文本标注，并转换为mfcc系数作为transformer模型的输入；

43、使用ctc损失函数进行预训练，优化模型参数；

44、步骤s32:基于用户声纹库，为每个用户分配一个唯一的标识符，使用独热编码向量表示，将用户标识符作为额外的输入特征与声音数据一起输入到transformer模型中；

45、步骤s33:在预训练的transformer模型基础上，将用户标识符引入模型，与声音特征一起进行训练，通过调整模型参数，使其能够更好地适应每个用户的声音特征，得到最终的语音识别模型；

46、

47、其中，为个性化训练后的模型参数；为模型预训练后的参数；n为用户声纹库中的用户数量；l()为损失函数；为模型对用户的声音信号的输出；为用户的标签。

48、进一步的，所述使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果，具体为：

49、（1）初始时刻t=0，选择初始的若干个备选结果作为初始搜索状态。

50、（2）逐步遍历时间步t，根据语音识别模型输出的概率分布p(word∣audio)，扩展备选结果，保留概率最高的g个结果；

51、（3）在每个时间步中，根据概率分布和已有的备选结果，计算新的备选结果的概率得分，并选择概率最高的g个结果；

52、（4）当达到最大时间步或满足停止条件时，选择最终概率最高的结果作为最终的文本结果。

53、进一步的，步骤s6具体为:

54、设问题文本表示为q text，通过bert模型生成问题的语义表示q：

55、

56、其中，表示bert模型的编码器部分，表示句本文档来自技高网...

【技术保护点】

1.基于改进语音识别的电力智能交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S1具体为：

3.根据权利要求2所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S12具体为：

4.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S2具体为：

5.根据权利要求4所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S23具体为：

6.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S3具体为：

7.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果，具体为：

8.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S6具体为:

9.一种基于改进语音识别的电力智能交互系统，其特征在于，包括处理器、存储器以及存储在所述存储器上的计算

...

【技术特征摘要】

1.基于改进语音识别的电力智能交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤s1具体为：

3.根据权利要求2所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤s12具体为：

4.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤s2具体为：

5.根据权利要求4所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤s23具体为：

6.根据权利要求1所述的基于改进语音识别的电力智能...

【专利技术属性】
技术研发人员：庄莉，池少宁，白海滨，袁宝峰，耿雪霞，林生雄，
申请(专利权)人：福建亿榕信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人