ASR语言模型的构建方法、系统、存储介质及电子设备技术方案

技术编号:37232286 阅读:11 留言:0更新日期:2023-04-20 23:14
本发明专利技术涉及模型建立领域,尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。该方法包括:步骤1,获取语音样本数据;步骤2,对所述语音样本数据进行基础处理,得到样本数据;步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;步骤4,对所述第一样本数据进行变体替换,得到本体数据;步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;步骤6,根据所述训练样本对ASR语言模型进行构建。通过该方法可以获取高质量的ASR语言模型的训练样本,基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。到相关领域。到相关领域。

【技术实现步骤摘要】
ASR语言模型的构建方法、系统、存储介质及电子设备


[0001]本专利技术涉及模型建立领域,尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。

技术介绍

[0002]现有技术中,对于语音文本数据的内容审核主要通过ASR+nlp的解决方案。其中ASR作为整个方案的基础部分,决定着音频转译的具体内容,而ASR的语言模型作为ASR的重要组成部分,控制着ASR的转译文本,所以语言模型的效果对最终的影响十分显著,高质量的语言模型训练样本,对整体效果提升是十分明显的。但现有模型对于模型训练样本的获取过于单一,其导致最终得出的模型准确率不高,无法达到预期效果。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供ASR语言模型的构建方法、系统、存储介质及电子设备。
[0004]本专利技术解决上述技术问题的技术方案如下:一种ASR语言模型的构建方法,包括:
[0005]步骤1,获取语音样本数据;
[0006]步骤2,对所述语音样本数据进行基础处理,得到样本数据;
[0007]步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
[0008]步骤4,对所述第一样本数据进行变体替换,得到本体数据;
[0009]步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;
[0010]步骤6,根据所述训练样本对ASR语言模型进行构建。
[0011]本专利技术的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
[0012]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0013]进一步,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
[0014]采用上述进一步方案的有益效果是,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
[0015]进一步,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
[0016]采用上述进一步方案的有益效果是,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
[0017]进一步,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
[0018]进一步,步骤3具体为:
[0019]对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
[0020]进一步,步骤4具体为:
[0021]通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
[0022]进一步,步骤5具体为:
[0023]对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
[0024]本专利技术解决上述技术问题的另一种技术方案如下:一种ASR语言模型的构建系统,包括:
[0025]获取模块,用于获取语音样本数据;
[0026]基础处理模块,用于对所述语音样本数据进行基础处理,得到样本数据;
[0027]清洗模块,用于对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
[0028]替换模块,用于对所述第一样本数据进行变体替换,得到本体数据;
[0029]统计模块,用于对所述本体数据进行频数统计,根据统计结果生成训练样本;
[0030]构建模块,用于根据所述训练样本对ASR语言模型进行构建。
[0031]本专利技术的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
[0032]进一步,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
[0033]采用上述进一步方案的有益效果是,兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。
[0034]进一步,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
[0035]采用上述进一步方案的有益效果是,对语音样本数据进行统一化的基础处理可以更便于建立训练样本,使得训练样本更具有规范性。
[0036]进一步,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
[0037]进一步,清洗模块具体用于:
[0038]对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
[0039]进一步,替换模块具体用于:
[0040]通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
[0041]进一步,统计模块具体用于:
[0042]对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
[0043]本专利技术解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的一种ASR语言模型的构建方法。
[0044]本专利技术的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
[0045]本专利技术解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种ASR 语言模型的构建方法。
[0046]本专利技术的有益效果是:在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度,高质量的ASR语言模型训练样本,对整体效果提升是十分明显的,因而基于训练样本得出的 ASR语言训练模型可以更加精确,同时能够快速使用到相关领域。
附图说明
[0047]图1为本专利技术一种ASR语言模型的构建方法实施例提供的流程示意图;
[0048]图2为本专利技术一种ASR语言模型的构建系统实施例提供的系统框架图。
具体实施方式
[0049]以下对本专利技术的原理和特征进行描述,所举本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ASR语言模型的构建方法,其特征在于,包括:步骤1,获取语音样本数据;步骤2,对所述语音样本数据进行基础处理,得到样本数据;步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;步骤4,对所述第一样本数据进行变体替换,得到本体数据;步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;步骤6,根据所述训练样本对ASR语言模型进行构建。2.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。3.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。4.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。5.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤3具体为:对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。6.根据权利要求1所述的一种ASR语言...

【专利技术属性】
技术研发人员:邵历齐路唐会军梁堃
申请(专利权)人:北京数美时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1