一种用于提供语音助理服务的系统和方法技术方案

技术编号：41063582 阅读：4 留言：0更新日期：2024-04-24 11:16

本发明专利技术公开了一种用于提供语音助理服务的系统和方法，涉及人工智能技术领域，包括身份认证单元，所述身份认证单元用于用户登录云平台后对语音信号进行采集，并将采集的语音信号储存到云平台内构建的数据库内，人机交互单元，所述人机交互单元用于用户在登录云平台后，依据需求选择云平台内相应的功能，并获取相应的结果。本发明专利技术提出了一种用于提供语音助理服务的系统和方法，通过设置的身份认证单元用于用户登录云平台，并基于云平台获取需要进行检测的语音信号，通过设置的人机交互单元满足用户不同的功能需求，适用性更强，通过设置的语音处理单元对获取的语音信号进行处理，以提高语音信号的质量，提高后续对语音检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体为一种用于提供语音助理服务的系统和方法。

技术介绍

1、语音助理服务是通过对音频信号的自动话音识别处理、自然语言理解处理、对话管理器处理、自然语言生成处理和文本到话音处理中的一个或多个来提供对用户话语的响应的服务，在申请号为202311143602.8的中国专利中公开了“基于人工智能的语音交互服务系统，包括数据采集单元、预处理单元、位置分析单元、角度控制单元、信息存储库、声纹分析单元和互动回应单元，本专利技术涉及智能交互
，该基于人工智能的语音交互服务系统，通过位置分析单元分析得出声源的位置，进而使得机器人可以面向声源位置进行回应，从而和用户进行面对面交流，提高互动效果，同时还将多组声音采集模块沿纵向的平面设置在机器人四周，进而使得机器人转动俯仰角度，便于提高机器人应对不同身高的用户，进一步提高互动效果，使得用户的交互体验更好，本专利技术克服了现有技术中的语音交互服务系统功能简单，而且不够人性化，从而导致客户与其之间的交互体验差的问题。”

2、该对比文件仅仅解决了现有技术中的语音交互服务系统在面对不同用户群体共同交流时，不能有效区别回应各个用户，会导致和多个用户沟通时，产生错误信息，同时语音交互系统功能简单，交互欠缺人性化，从而导致客户与其之间的交互体验差的问题，未考虑到用户需要进行语音检测的内容采用的语言种类是方言时的情况，此时语音检测会存在一定的阻碍性，且未对采集的语音信号进行处理，以提高语音信号的质量，同时未考虑到在离线状态下，无法进行语音检测。

技术实现思路

1、本专利技术的目的在于提供一种用于提供语音助理服务的系统和方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种用于提供语音助理服务的系统，包括身份认证单元，所述身份认证单元用于用户登录云平台后对语音信号进行采集，并将采集的语音信号储存到云平台内构建的数据库内；

3、人机交互单元，所述人机交互单元用于用户在登录云平台后，依据需求选择云平台内相应的功能，并获取相应的结果；

4、语音处理单元，所述语音处理单元用于在采集到语音信号后，对采集的语音信号进行处理，以提高语音信号的质量，便于后续对语音信号进行进一步操作；

5、语音检测单元，所述语音检测单元用于对语音信号内语言种类以及语言内容进行识别检测，并将检测结果上传到云平台内构建的数据库内；

6、语音输出单元，所述语音输出单元用于获取语音信号检测结果并对检测结果进行质量评估。

7、优选的，所述身份认证单元包括登录模块、信号采集模块和信息储存模块，所述登录模块用于用户登录云平台，具体可通过人脸识别或者验证码以及账号密码的方式进行登录，且人脸识别需要在登录前通过摄像头进行人脸图像的输入，且验证码登录需要通过输入手机号的方式进行验证码接收登录，且账号密码登录需要通过输入注册的账号密码的方式进行登录，所述信号采集模块用于用户在云平台上进行语音信号采集或将需要进行检测的语音信号上传到云平台上，所述信息储存模块用于将信号采集模块获取的语音信号存储到云平台内构建的数据库内，并根据入库时间按降序的方式进行排序，且数据库内储存有各地的方言。

8、优选的，所述人机交互单元包括功能选择模块、ai文章识别判断模块和ai识别物体大小模块，所述功能选择模块用于用户在登录云平台后，依据需求选择云平台内相应的功能，所述ai文章识别判断模块用于对用户上传的文章进行识别判断，具体通过对文章进行语法及拼写检查、重复内容检测、情感分析以及语义分析等操作，以检测该文章是ai生成文章还是非ai生成文章，所述ai识别物体大小模块用于对用户拍摄上传的图片中物体的实际大小进行识别判断，具体通过输入摄像头各项参数，并对图片进行检测以获取图片的相关参数以及图片中物体的尺寸大小，进而获得图片中物体的实际大小。

9、优选的，所述人机交互单元还包括ai文字生成图片模块和结果输出模块，所述ai文字生成图片模块用于用户通过上传一张图片，并对该图片添加一些要求文字的方式，生成基于文字内容的类似的变种图片，所述结果输出模块用于当用户选择使用ai文章识别判断模块时，获取对文章的检测结果，当用户选择使用ai识别物体大小模块时，获取图片中物体的实际尺寸大小，当用户选择ai文字生成图片模块时，获取生成的基于要求文字内容的类似的变种图片。

10、优选的，所述语音处理单元包括语音预处理模块，所述语音预处理模块用于对获取的语音信号进行预处理操作，包括以下流程：对获取的语音信号进行预滤波，以解决语音信号内的背景噪声，提高语音信号的质量，通过模数转换将连续的语音信号转化为时域离散的语音信号，再通过振幅量化编码，生成所需的二进制语音离散信号，通过语音增强算法进行预加重操作，其具体计算公式如下：

11、y(t)＝x(t)-εx(t-1)

12、式中，y(t)表示预加重后的语音序列，t表示时间，ε表示预加重系数，x(t)表示原始语音序列，将语音信号划分为多个短时语音段分别进行处理，以提高语音信号的左右两端连续性。

13、优选的，所述语音处理单元还包括语音特征提取模块和语音增强模块，所述语音特征提取模块用于对经语音预处理模块处理后的语音信号通过mfcc算法进行特征提取操作，包括以下流程：对预处理后的语音信号进行fft变化，将信号从时域变换到频域，对经过fft变换后的语音信号进行取模平方操作，得到相应的谱线能量，基于频域语音信号的能量谱，计算滤波器的能量，对滤波器的能量谱系数取对数后进行dct变换，以拟合人耳对声音的感知，所述语音增强模块通过基于干扰语音与纯净语音之间的映射关系建立的深度学习模型来实现语音增强。

14、优选的，所述语音检测单元包括语言检测模块和普通话识别模块，所述语言检测模块用于检测语音内容的语言种类是普通话还是方言，包括以下流程：收集包含普通话和方言的语音样本，并对语音进行处理，提取语音特征，基于语音特征对分类器进行训练，将语音信号输入到分类器中，根据分类器的输出结果判断该语音是普通话还是方言，所述普通话识别模块用于当语言检测模块的检测结果为该语音内容的语言种类是普通话时，通过经过大量训练得到的声学模型以及语言模型，进行语音解码搜索，获取语音识别得到的文本序列，在离线状态下，将经过处理的语音信号与构建的离线语音库进行比对，且离线语音库内含有提前输入的已有的语音词汇，包含普通话版本和方言版本，且比对方式具体为将语音信号按照动宾结构进行拆分后再与语音库进行比对。

15、优选的，所述语音检测单元还包括方言识别模块、方言转换模块和检测结果上传模块，所述方言识别模块用于当语言检测模块的检测结果为该语音内容的语言种类是方言时，基于云平台内构建的数据库内储存的各种方言，对语音内容的方言种类进行匹配，并对语音内容进行识别，在离线状态下，将经过处理的语音信号与构建的离线语音库进行比对，所述方言转换模块用于将方言识别模块识别得到的方言内容通过万言翻译app翻译为普通话版本文档来自技高网...

【技术保护点】

1.一种用于提供语音助理服务的系统，其特征在于：包括身份认证单元(1)，所述身份认证单元(1)用于用户登录云平台后对语音信号进行采集，并将采集的语音信号储存到云平台内构建的数据库内；

2.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述身份认证单元(1)包括登录模块(101)、信号采集模块(102)和信息储存模块(103)，所述登录模块(101)用于用户登录云平台，具体可通过人脸识别或者验证码以及账号密码的方式进行登录，且人脸识别需要在登录前通过摄像头进行人脸图像的输入，且验证码登录需要通过输入手机号的方式进行验证码接收登录，且账号密码登录需要通过输入注册的账号密码的方式进行登录，所述信号采集模块(102)用于用户在云平台上进行语音信号采集或将需要进行检测的语音信号上传到云平台上，所述信息储存模块(103)用于将信号采集模块(102)获取的语音信号存储到云平台内构建的数据库内，并根据入库时间按降序的方式进行排序，且数据库内储存有各地的方言。

3.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述人机交互单元(2)包括功

4.根据权利要求3所述的一种用于提供语音助理服务的系统，其特征在于：所述人机交互单元(2)还包括AI文字生成图片模块(204)和结果输出模块(205)，所述AI文字生成图片模块(204)用于用户通过上传一张图片，并对该图片添加一些要求文字的方式，生成基于文字内容的类似的变种图片，所述结果输出模块(205)用于当用户选择使用AI文章识别判断模块(202)时，获取对文章的检测结果，当用户选择使用AI识别物体大小模块(203)时，获取图片中物体的实际尺寸大小，当用户选择AI文字生成图片模块(204)时，获取生成的基于要求文字内容的类似的变种图片。

5.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述语音处理单元(3)包括语音预处理模块(301)，所述语音预处理模块(301)用于对获取的语音信号进行预处理操作，包括以下流程：对获取的语音信号进行预滤波，以解决语音信号内的背景噪声，提高语音信号的质量，通过模数转换将连续的语音信号转化为时域离散的语音信号，再通过振幅量化编码，生成所需的二进制语音离散信号，通过语音增强算法进行预加重操作，将语音信号划分为多个短时语音段分别进行处理，以提高语音信号的左右两端连续性。

6.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述语音处理单元(3)还包括语音特征提取模块(302)和语音增强模块(303)，所述语音特征提取模块(302)用于对经语音预处理模块(301)处理后的语音信号通过MFCC算法进行特征提取操作，包括以下流程：对预处理后的语音信号进行FFT变化，将信号从时域变换到频域，对经过FFT变换后的语音信号进行取模平方操作，得到相应的谱线能量，基于频域语音信号的能量谱，计算滤波器的能量，对滤波器的能量谱系数取对数后进行DCT变换，以拟合人耳对声音的感知，所述语音增强模块(303)通过基于干扰语音与纯净语音之间的映射关系建立的深度学习模型来实现语音增强。

7.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述语音检测单元(4)包括语言检测模块(401)和普通话识别模块(402)，所述语言检测模块(401)用于检测语音内容的语言种类是普通话还是方言，包括以下流程：收集包含普通话和方言的语音样本，并对语音进行处理，提取语音特征，基于语音特征对分类器进行训练，将语音信号输入到分类器中，根据分类器的输出结果判断该语音是普通话还是方言，所述普通话识别模块(402)用于当语言检测模块(401)的检测结果为该语音内容的语言种类是普通话时，通过经过大量训练得到的声学模型以及语言模型，进行语音解码搜索，获取语音识别得到的文本序列，在离线状态下，将经过处理的语音信号与构建的离线语音库进行比对，且离线语音库内含有提前输入的已有的语音词汇，包含普通话版本和方言版本，且比对方式具体为...

【技术特征摘要】

3.根据权利要求1所述的一种用于提供语音助理服务的系统，其特征在于：所述人机交互单元(2)包括功能选择模块(201)、ai文章识别判断模块(202)和ai识别物体大小模块(203)，所述功能选择模块(201)用于用户在登录云平台后，依据需求选择云平台内相应的功能，所述ai文章识别判断模块(202)用于对用户上传的文章进行识别判断，具体通过对文章进行语法及拼写检查、重复内容检测、情感分析以及语义分析等操作，以检测该文章是ai生成文章还是非ai生成文章，所述ai识别物体大小模块(203)用于对用户拍摄上传的图片中物体的实际大小进行识别判断，具体通过输入摄像头各项参数，并对图片进行检测以获取图片的相关参数以及图片中物体的尺寸大小，进而获得图片中物体的实际大小。

4.根据权利要求3所述的一种用于提供语音助理服务的系统，其特征在于：所述人机交互单元(2)还包括ai文字生成图片模块(204)和结果输出模块(205)，所述ai文字生成图片模块(204)用于用户通过上传一张图片，并对该图片添加一些要求文字的方式，生成基于文字内容的类似的变种图片，所述结果输出模块(205)用于当用户选择使用ai文章识别判断模块(202)时，获取对文章的检测结果，当用户选择使用ai识别物体大小模块(203)时，获取图片中物体的实际尺寸大小，当用户选择ai文字生成图片模块(204)时，获取生成的基于要求文字内容的类似的变种图片。

【专利技术属性】
技术研发人员：王志勇，
申请(专利权)人：钧扬网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人