【技术实现步骤摘要】
一种非接触式新冠咨询方法和系统
本专利技术属于语音识别
,涉及一种非接触式新冠咨询方法和系统。
技术介绍
新冠病毒的治疗没有特效药,当前工作的重点在于预防,对防疫知识、疫情状况的宣传则是其中的重要一环。传统的人工宣传方式会存在被病毒感染的风险,因此,为了减少传播风险,采用非接触式宣传、咨询方式是有必要的。本专利技术针对以上问题提供了一种非接触式新冠咨询方法和系统,针对疫情特殊状况改进咨询方式,减少因直接接触导致的感染。
技术实现思路
为至少部分地解决上述问题,本专利技术提供了一种非接触式新冠咨询方法和系统,所述方法包括:获取用户语音信号,并从用户语音波形中提取出语音特征序列;根据学习算法将提取的语音特征序列生成音素信息;将生成的音素信息与声学模型进行匹配和比较,得到最佳语音识别结果,并利用语言模型对语音识别结果进行修正,获取修正后的语音识别结果;将修正好的语音识别结果进行序列化,并利用LSTM分类模型获取对应的用户意图,其中,用户意图主要包括疫情知识问答意图,
【技术保护点】
1.一种非接触式新冠咨询方法,其特征在于:所述方法包括:/n获取用户语音信号,并从用户语音波形中提取出语音特征序列;/n根据学习算法将提取的语音特征序列生成音素信息;/n将生成的音素信息与声学模型进行匹配和比较,得到最佳语音识别结果,并利用语言模型对语音识别结果进行修正,获取修正后的语音识别结果;/n将修正好的语音识别结果进行序列化,并利用LSTM分类模型获取对应的用户意图,其中,用户意图主要包括疫情知识问答意图,闲聊问答意图;/n通过计算修正好的语音识别结果中用户问句与数据库中相似问句文本的编辑距离,得到相似度最高的分值作为最优问答对,并将问题的答案返回,并将其问题的答案 ...
【技术特征摘要】
1.一种非接触式新冠咨询方法,其特征在于:所述方法包括:
获取用户语音信号,并从用户语音波形中提取出语音特征序列;
根据学习算法将提取的语音特征序列生成音素信息;
将生成的音素信息与声学模型进行匹配和比较,得到最佳语音识别结果,并利用语言模型对语音识别结果进行修正,获取修正后的语音识别结果;
将修正好的语音识别结果进行序列化,并利用LSTM分类模型获取对应的用户意图,其中,用户意图主要包括疫情知识问答意图,闲聊问答意图;
通过计算修正好的语音识别结果中用户问句与数据库中相似问句文本的编辑距离,得到相似度最高的分值作为最优问答对,并将问题的答案返回,并将其问题的答案数据利用通过文本分析提取出文本特征并预测韵律特征;
通过爬取网络谣言数据,利用协同过滤算法,选取与用户问句相关度最高的谣言数据,并将其谣言数据利用通过文本分析提取出文本特征并预测韵律特征;
利用声学模型实现前端参数到语音参数的映射,并通过声码器合成语音并播放。
2.根据权利要求1所述的一种非接触式新冠咨询方法,其特征在于,所述从用户语音波形中提取出语音特征序列,包括:
对获取的语音信号进行端点检测,分离并去除信号信息中的噪声信息,获得语音信息中有效部分,并求其功率谱;
根据所述功率谱,提取所述的有效部分的功率归一化频谱特征;
将所述的功率归一化频谱特征按照帧索引顺序组成一个序列,然后分别进行一阶差分和二阶差分处理后,分别得到Delta频谱特征和DoubleDelta频谱特征;
将所述的功率归一化频谱特征、Delta频谱特征以及DoubleDelta频谱特征组成功率归一化频谱特征集,然后通过时空Gabor滤波,将时间调制滤波器表示为行向量,与功率归一化频谱特征集的每个通道独立地卷积;同样,频域调制滤波器表示为列向量,与功率归一化频谱特征集的每个帧独立地卷积;
针对所述的功率归一化频谱特征集,执行直方图均衡化,然后通过PCA将高维特征投影到低维空间上,得功率谱Gabor特征集,并将功率谱Gabor特征集组成语音特征序列。
3.根据权利要求1所述的一种非接触式新冠咨询方法,其特征在于,所述将修正好的语音识别结果进行序列化,并利用LSTM分类模型获取对应的用户意图,包括:
将所述修正好的语音识别结果进行文本分词,并得到字和词向量;
将所述字和词向量的序列作为基于LSTM分类模型的输入;
基于LSTM分类模型的输出包括用户意图的分类及作为关键信息的标签。
4.根据权利要求1所述的一种非接触式新冠咨询方法,其特征在于,所述通过计算修正好的语音识别结果中用户问句与数据库中相似问句文本的编辑距离,得到相似度最高的分值作为最优问答对,并将问题的答案返回,包括:
步骤A1,根据以下公式获取用户问句与数据库中相似问句文本的最小编辑距离:
其中,EDCD代表用户问句的文本与数据库中相似问句文本的最小编辑距离,C代表用户问句的文本,D代表数据库中相似问句文本,Ci代表用户问句的文本中第i个文本,i=LC…3,2,1,Bj代表数据库中相似问句文本中第j个文本,j=LD…3,2,1,LC代表用户问句的文本的长度,LD代表数据库中相似问句文本的长度,min代表最小值,Ci-1代表用户问句的文本中第i-1个文本,Bj-1代表数据库中相似问句文本中第j-1个文本;
步骤A2,根据步骤A1计算的用户问句与数据库中相似问句文本的最小编辑距离,并根据以下公式计算用户问句与数据库中相似问句文本间的相似度
其中,LC代表用户问句的文本的长度,LD代表数据库中相似问句文本的长度,sim(C,D)用户问句与数据库中相似问句文本间的相似度,max代表最大值;
步骤A3,不断重复步骤A1-A2,直至找出数据库中相似度最大的问句文本,并将相似度最大的问句文本作为最优问答对,并将问题的答案返回。
5.根据权利要求1所述的一种非接触式新冠咨询方法,其特征在于,所述通过爬取网络谣言数据,利用协同过滤算法,选取与用户问句相关度最高的谣言数据,并将其谣言数据利用通过文本分析提取出文本特征并预测韵律特征,包括:
确立数据采集清单,并根据数据采集清单确定爬取的网络谣言数据源,并针对所述网络谣言数据源生成初始读取请求;
将所述初始读取请求发送至所述网络谣言数据源,并接收所述网络谣言数据源返回的反馈结果;
根据所述反馈结果确定所述网络谣言数据源的请求参数规则,并依据所述请求参数规则生成谣言数据采集请求;
将所述谣言数据采集请求发送至所述网络谣言数据源,以获取所述数据采集清单指定的谣言数据;
通过协同过滤算法,获...
【专利技术属性】
技术研发人员:左骏,黄建强,张琦,熊贤剑,
申请(专利权)人:上海卓繁信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。