用于训练语言模型并识别语音的方法和设备技术

技术编号：15006124 阅读：130 留言：0更新日期：2017-04-04 13:26

提供一种用于训练语言模型并识别语音的方法和设备。提供一种用于训练神经网络语言模型的方法和设备，以及一种用于基于训练的语言模型来识别语音数据的方法和设备。所述训练语言模型的方法包括：使用处理器将训练数据转换为包含误差的训练数据；使用包含误差的训练数据训练神经网络语言模型。

全部详细技术资料下载

【技术实现步骤摘要】
本申请要求于2014年12月8日提交到韩国知识产权局的第10-2014-0175152号韩国专利申请的权益，出于所有目的，所述韩国专利申请的全部公开通过引用包含于此。
以下描述涉及训练神经网络语言模型的技术和基于语言模型执行语音识别的技术。
技术介绍
模式识别可应用于包括手写字符的识别、使用成像技术的医疗诊断和检测机械设计中的错误的各种技术。人脑能够轻松地识别可视图像中的模式。然而，利用计算机执行有效且精确的模式识别一直非常困难。为了将输入模式分类为属于预定组的成员，研究人员正在对将由人执行的有效且精确的模式识别应用于计算机的方法积极地进行研究。研究的一个这样的领域集中于通过数学表达式对人的生物神经细胞的特性进行建模的人工神经网络。为了将输入模式分类为预定组，神经网络采用模拟人脑的学习能力的算法。通过该算法，神经网络可产生输入模式与输出模式之间的映射。产生这种映射的能力可被称为神经网络的学习能力。此外，神经网络可具有基于学习的结果针对还将用于学习的输入模式产生相对精确的输出的泛化能力。最近正在研究使用这种神经网络执行语音识别的技术。例如，正在持续进行研究来在各种环境(诸如包括附近用户的语音或外部噪声的环境)中增加语音识别的准确性。
技术实现思路
提供本
技术实现思路
以按照简化的形式来介绍对构思的选择，将在下面的具体实施方式中对所述构思进行进一步描述。本
技术实现思路
不意图标识所要求保...

【技术保护点】
一种训练语言模型的方法，所述方法包括：使用处理器将训练数据转换为包含误差的训练数据；使用包含误差的训练数据训练神经网络语言模型。

【技术特征摘要】
2014.12.08 KR 10-2014-01751521.一种训练语言模型的方法，所述方法包括：
使用处理器将训练数据转换为包含误差的训练数据；
使用包含误差的训练数据训练神经网络语言模型。
2.如权利要求1所述的方法，其中，所述转换的步骤包括：
从训练数据中的词选择将被错误词替换的词；
通过利用错误词替换选择的词来产生包含误差的训练数据。
3.如权利要求2所述的方法，其中，所述转换的步骤还包括：从与选择
的词相关联的多个候选词选择错误词。
4.如权利要求3所述的方法，其中，候选词基于与选择的词的语音相似
度被确定。
5.如权利要求3所述的方法，其中，所述选择错误词的步骤包括：基于
分配给候选词的权重选择错误词。
6.如权利要求2所述的方法，其中，所述选择的步骤包括：从训练数据
中的词任意选择将被错误词替换的词。
7.如权利要求1所述的方法，还包括：
确定训练数据是否将被转换为包含误差的训练数据。
8.一种训练语言模型的方法，所述方法包括：
使用处理器，基于词之间的语音相似度将训练数据中的词转换为向量值；
使用向量值训练神经网络语言模型。
9.如权利要求8所述的方法，其中，所述转换的步骤包括：通过将声音
嵌入矩阵应用于训练数据中的词来将训练数据中的词转换为向量值。
10.如权利要求9所述的方法，其中，所述转换的步骤包括：使用声音
嵌入矩阵确定训练数据中的词的向量值，从而语音相似的词被布置在向量空
间中的相...

【专利技术属性】
技术研发人员：李镐式，崔喜烈，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人