基于人工智能的跨语种语音转录方法、设备及可读介质技术

技术编号：16217917 阅读：63 留言：0更新日期：2017-09-16 00:16

本发明专利技术提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括：将待转录的语音数据进行预处理，获取多个声学特征；待转录的语音数据采用第一语种表示；根据多个声学特征以及预先训练的跨语种转录模型，预测语音数据对应的转录后的翻译文本；其中，翻译文本采用第二语种表示，第二语种不同于第一语种。采用本发明专利技术的技术方案，跨语种语音转录时不用先进行语音识别，再进行机器翻译，而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录，能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题，与现有技术相比，能够有效地提高跨语种语音转录的准确性和转录效率。

Inter language speech transcription method, apparatus and readable medium based on Artificial Intelligence

The invention provides an inter lingual speech transcription method, an apparatus and a readable medium based on artificial intelligence. It includes the method of voice data will be transcribed for pretreatment, obtaining a plurality of acoustic characteristics of speech transcription; data to be expressed by first language; according to a plurality of acoustic features and pre training model of cross language translation text transcription, transcription prediction speech data corresponding to the post; the translation text is expressed by second languages, second languages is different from the first language. The technical scheme of the invention, cross language speech transcription without first speech recognition, then Machine Translation, but directly according to the pre training model of cross language transcription can cross language transcription, can overcome the existing technology of the two step in the way of cross language transcription error accumulation problem, compared with the prior art that can effectively improve the accuracy of cross language speech transcription and transcription efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的跨语种语音转录方法、设备及可读介质
本专利技术涉及计算机应用
，尤其涉及一种基于人工智能的跨语种语音转录方法、设备及可读介质。
技术介绍
人工智能(ArtificialIntelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。随着语音技术的发展，从语音到对应文本的语音转录在日常生活中逐步的普及。然而，当前的语音转录技术只能识别转录当前语种的语音，例如一段普通话的语音，对应的转录结果会为其对应的汉字文本，而并不能满足跨语种语音转录的需求，例如无法将输入的一段普通话语音，直接输出跨语种语音转录的对应的英文翻译文本。为了实现跨语种的语音转录，现有技术中多采用两步走的方案：首先，通过语音识别工具对输入的语音进行转录生成文本；然后，通过机器翻译的方法，对前面生成的文本进行翻译，最后得到跨语种的语音转录文本...
基于人工智能的跨语种语音转录方法、设备及可读介质

【技术保护点】
一种基于人工智能的跨语种语音转录方法，其特征在于，所述方法包括：将待转录的语音数据进行预处理，获取多个声学特征；所述待转录的语音数据采用第一语种表示；根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种。

【技术特征摘要】
1.一种基于人工智能的跨语种语音转录方法，其特征在于，所述方法包括：将待转录的语音数据进行预处理，获取多个声学特征；所述待转录的语音数据采用第一语种表示；根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本；其中，所述翻译文本采用第二语种表示，所述第二语种不同于所述第一语种。2.根据权利要求1所述的方法，其特征在于，将待转录的语音数据进行预处理，获取多个声学特征，具体包括：对所述待转录的语音数据采用预设的采样率进行采样，得到多个语音数据采样点；对所述多个语音数据采样点按照预设的量化位数进行量化处理，得到脉冲编码调制文件；从所述脉冲编码调制文件中提取多个所述声学特征。3.根据权利要求2所述的方法，其特征在于，从所述脉冲编码调制文件中提取多个所述声学特征，具体包括：从所述脉冲编码调制文件的开头选取预设帧长的数据帧；并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧，共得到多个所述数据帧；分别从多个所述数据帧中提取每个所述数据帧的声学特征，得到多个所述声学特征。4.根据权利要求1-3任一所述的方法，其特征在于，根据多个所述声学特征以及预先训练的跨语种转录模型，预测所述语音数据对应的转录后的翻译文本之前，所述方法还包括：采集数条所述第一语种表示的训练语音数据以及各条所述训练语音数据转录为所述第二语种表示的真实翻译文本；采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型。5.根据权利要求4所述的方法，其特征在于，采用各条所述训练语音数据和对应的所述真实翻译文本，训练所述跨语种转录模型，具体包括：将当前的所述训练语音数据代入所述跨语种转录模型，使得所述跨语种转录模型预测所述训练语音数据对应的预测翻译文本；判断所述训练语音数据的所述预测翻译文本与所述真实翻译文本是否一致；若不一致时，修改所述跨语种转录模型的模型参数，使得所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本趋于一致；并继续选择下一条所述训练语音数据进行训练；利用各条所述训练语音数据，按照执行上述步骤，重复对所述跨语种转录模型进行训练，直至所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本一致，确定所述跨语种转录模型的模型参数，从而确定所述跨语种转录模型。6.一种基于人工智能的跨语种语音转录装置，其特征在于，所述装置包括：获取模块，用于...

【专利技术属性】
技术研发人员：邹伟，李先刚，黄斌，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人