【技术实现步骤摘要】
一种数字串语音识别方法、身份验证装置及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种数字串语音识别方法、身份验证装置及计算机可读存储介质。
技术介绍
语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。数字串的语音识别的应用也越来越广泛,尤其是在身份验证中,传统的数字串识别技术是直接通过语音识别在大范围语料的学 ...
【技术保护点】
1.一种数字串语音识别方法,其特征在于,所述方法包含步骤:/n获取待识别语音;/n将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本,其中,构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络,所述待识别语音进入所述数字串语音识别模型后,先后经由卷积神经网络、长短期记忆网络及全连接网络的计算,得到所述数字串文本。/n
【技术特征摘要】 【专利技术属性】
1.一种数字串语音识别方法,其特征在于,所述方法包含步骤:
获取待识别语音;
将所述语音输入至数字串语音识别模型进行识别,以得到所述待识别语音对应的数字串文本,其中,构建所述数字串语音识别模型的算法包含卷积神经网络、长短期记忆网络及全连接网络,所述待识别语音进入所述数字串语音识别模型后,先后经由卷积神经网络、长短期记忆网络及全连接网络的计算,得到所述数字串文本。
2.如权利要求1所述的方法,其特征在于,构建所述数字串语音识别模型中的所述卷积神经网络结构包含一层卷积网络和一层maxpooling,其中,卷积网络采用5×5的卷积核,maxpooling层采用5×5的Filter结构。
3.如权利要求2所述的方法,其特征在于,所述卷积神经网络的输入层为所述待识别语音的频谱图特征数据,输出层的数据结构为帧数乘以1024维的矩阵。
4.如权利要求1所述的方法,其特征在于,所述长短期记忆网络的结构为3层,每层网络包含300个神经元。
5.如权利要求4所述的方法,其特征在于,所述长短期记忆网络的输入层为所述卷积神经网络的输出结果,输出层为帧数乘以300维的矩阵。
6.如权利要求4所述的方法,其特征在于,所述长短期记忆网络的上层封装神经网络注意机制,以对所述长短期记忆网络的输出结果进行过滤。
技术研发人员:曾志先,肖龙源,李稀敏,叶志坚,刘晓葳,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。