全面管理和连续训练的自动语音识别服务制造技术

技术编号：24949982 阅读：51 留言：0更新日期：2020-07-18 00:05

描述了用于进行自动语音识别(ASR)的技术。用户可以将音频文件上传到存储位置。然后，所述用户向所述ASR服务提供对所述音频文件的引用。ASR引擎通过以下方式分析音频文件：使用声学模型将音频数据划分为单词，并且使用语言模型识别所述音频文件中说出的所述单词。可以使用音频句子数据来训练所述声学模型，从而使转录服务能够准确地转录冗长的音频数据。对结果加标点符号并进行标准化，并且将所得的转录本返回给所述用户。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】全面管理和连续训练的自动语音识别服务相关申请的交叉引用本申请要求2018年3月15日提交的美国非临时申请号15/922,495和2017年11月22日提交的美国临时专利申请号62/590,188的权益，该申请以引用的方式并入本文。
技术介绍
机器学习领域已经被广泛认为可能是技术未来的重要驱动力。现在，各地的组织都在寻求使用机器学习技术来解决各种各样的问题，诸如优化其产品、过程、客户体验等方面。尽管机器学习的高级视图听起来很简单，例如，向计算机提供培训数据，以允许计算机自动从训练数据中学习以生成可以对其他数据进行预测的模型，但是在实践中实施机器学习技术可能非常困难。该困难部分上归因于机器学习算法的基础算法和数学复杂性，所述机器学习算法通常由学术研究人员或本领域最前沿的人员开发。另外，也难以生成、更新和部署有用的模型，这可能会非常耗时且耗费资源，并且充满了复杂性。此外，机器学习模型往往非常关注特定的用例和操作环境，且因此，对基础环境或用例的任何改变都可能需要完全重新生成新模型。此外，构建和部署机器学习技术与传统软件工程完全不同，并且需...

【技术保护点】
1.一种计算机实施的方法，其包括：/n由提供商网络接收执行自动语音识别(ASR)的请求，所述请求包括对音频文件的引用；/n使用所述引用检取所述音频文件；/n由ASR引擎使用语言模型和所述音频文件生成所述音频文件的转录本，所述ASR引擎和所述语言模型由部署到所述提供商网络中的专用网络的实例来实施；以及/n返回所述音频文件的所述转录本。/n

【技术特征摘要】
【国外来华专利技术】20171122 US 62/590,188;20180315 US 15/922,4951.一种计算机实施的方法，其包括：
由提供商网络接收执行自动语音识别(ASR)的请求，所述请求包括对音频文件的引用；
使用所述引用检取所述音频文件；
由ASR引擎使用语言模型和所述音频文件生成所述音频文件的转录本，所述ASR引擎和所述语言模型由部署到所述提供商网络中的专用网络的实例来实施；以及
返回所述音频文件的所述转录本。

2.如权利要求1所述的计算机实施的方法，其还包括：使用声学模型将所述音频文件划分为多个单词。

3.如权利要求2所述的计算机实施的方法，其还包括：
使用先前处理的音频数据来训练所述声学模型，以根据类型、声学特性或客户特定语言中的一者或多者来识别所述声学模型中的不准确性。

4.如权利要求1至3中任一项所述的计算机实施的方法，其还包括：供应所述实例以生成所述音频文件的所述转录本；以及
在确定所述转录本完成之后取消供应所述实例。

5.如权利要求1至4中任一项所述的计算机实施的方法，其还包括：
将所述请求发送到控制平面，所述控制平面对多个请求进行编排；以及
由所述控制平面执行工作流程以对所述请求执行ASR。

6.如权利要求1至5中任一项所述的计算机实施的方法，其中所述语言模型是基于随所述请求接收的元数据而选择的多个语言模型中的一个。

7.如权利要求1至6中任一项所述的计算机实施的方法，其还包括：
通过授权服务对所述请求进行授权，以确定与同所述请求相关联的帐户相关联的待处理请求的数量未超过阈值。

8.如权利要求1所述的计算机实施的方法，其中返回所述音频文件的所述转录本还包括：
将所述转录本上传到存储服...

【专利技术属性】
技术研发人员：A·辛格，D·苏瑞史，V·菲洛明，R·古拉班尼，V·朱可夫，S·西瓦苏布拉马尼亚，V·S·安巴扎甘，P·K·阿卡拉普，S·史蒂芬妮，
申请(专利权)人：亚马逊技术股份有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人