ASR语言模型的构建方法、系统、存储介质及电子设备技术方案

技术编号：37232286 阅读：11 留言：0更新日期：2023-04-20 23:14

本发明专利技术涉及模型建立领域，尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。该方法包括：步骤1，获取语音样本数据；步骤2，对所述语音样本数据进行基础处理，得到样本数据；步骤3，对所述样本数据进行字符清洗，得到清洗后的第一样本数据；步骤4，对所述第一样本数据进行变体替换，得到本体数据；步骤5，对所述本体数据进行频数统计，根据统计结果生成训练样本；步骤6，根据所述训练样本对ASR语言模型进行构建。通过该方法可以获取高质量的ASR语言模型的训练样本，基于训练样本得出的ASR语言训练模型可以更加精确，同时能够快速使用到相关领域。到相关领域。到相关领域。

全部详细技术资料下载

【技术实现步骤摘要】
ASR语言模型的构建方法、系统、存储介质及电子设备

[0001]本专利技术涉及模型建立领域，尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。

技术介绍

[0002]现有技术中，对于语音文本数据的内容审核主要通过ASR+nlp的解决方案。其中ASR作为整个方案的基础部分，决定着音频转译的具体内容，而ASR的语言模型作为ASR的重要组成部分，控制着ASR的转译文本，所以语言模型的效果对最终的影响十分显著，高质量的语言模型训练样本，对整体效果提升是十分明显的。但现有模型对于模型训练样本的获取过于单一，其导致最终得出的模型准确率不高，无法达到预期效果。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供ASR语言模型的构建方法、系统、存储介质及电子设备。
[0004]本专利技术解决上述技术问题的技术方案如下：一种ASR语言模型的构建方法，包括：
[0005]步骤1，获取语音样本数据；
[0006]步骤2，对所述语音样本数据进行基础处理，得到样本数据；
[0007]步骤3，对所述样本数据进行字符清洗，得到清洗后的第一样本数据；
[0008]步骤4，对所述第一样本数据进行变体替换，得到本体数据；
[0009]步骤5，对所述本体数据进行频数统计，根据统计结果生成训练样本；
[0010]步骤6，根据所述训练样本对ASR语言模型进行构建。
[0011]本专利技术的有益效果是：在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确...

【技术保护点】

【技术特征摘要】
1.一种ASR语言模型的构建方法，其特征在于，包括：步骤1，获取语音样本数据；步骤2，对所述语音样本数据进行基础处理，得到样本数据；步骤3，对所述样本数据进行字符清洗，得到清洗后的第一样本数据；步骤4，对所述第一样本数据进行变体替换，得到本体数据；步骤5，对所述本体数据进行频数统计，根据统计结果生成训练样本；步骤6，根据所述训练样本对ASR语言模型进行构建。2.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，语音样本数据包括：开源数据、爬虫获取的数据以及商业数据。3.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，基础处理包括：将所述语音样本数据中的全角字符转换为半角字符，通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。4.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，基础处理还包括：对所述语音样本数据进行长度过滤处理，将所述语音样本数据中的阿拉伯数字转换为汉字，将所述语音样本数据中的英文统一处理，将所述语音样本数据中的标点替换为空格。5.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，步骤3具体为：对所述样本数据中的非法字符进行剔除，得到清洗后的第一样本数据。6.根据权利要求1所述的一种ASR语言...

【专利技术属性】
技术研发人员：邵历，齐路，唐会军，梁堃，
申请(专利权)人：北京数美时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人