一种用于监管领域的文本纠错方法、存储介质和装置制造方法及图纸

技术编号:33642449 阅读:19 留言:0更新日期:2022-06-02 20:18
本发明专利技术公开了一种用于监管领域的文本纠错方法、存储介质和装置,涉及直播领域。该方法包括:获取ASR实时转译文本,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本。通过BERT分类模型对转译文本进行分类处理,经分类处理后,根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理,获得纠错文本,有效的提升直播场景下监管各领域内ASR对音频转译文本的字准确率,并快速应用到相关领域。并快速应用到相关领域。并快速应用到相关领域。

【技术实现步骤摘要】
一种用于监管领域的文本纠错方法、存储介质和装置


[0001]本专利技术涉及直播领域,尤其涉及一种用于监管领域的文本纠错方法、存储介质和装置。

技术介绍

[0002]随着网络直播行业的兴起,极大扩张了人们的社交渠道,与此同时,网络行业的监管需愈加复杂。由于直播环境和自动语音识别技术(简称ASR,下同)的不足,使得ASR出现足以改变音频语义的错误转译信息,使得监管问题层出不穷,因此对直播场景中的监管领域数据的ASR转译数据进行纠正成为了重要的技术瓶颈。
[0003]传统的纠错方法是直接在ASR转译文本后只使用通用领域的纠错方法。此类方法的缺陷一方面是监管和通用领域的数据分布不够匹配,通用领域的数据分布要包含监管领域的数据分布,并且更为广泛。另一方面是监管领域包含众多细分的监管,将众多监管子领域纠错任务集成在一起,难以获得准确领域结果,传统纠错方式对监管领域的评估效果较差。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种用于监管领域的文本纠错方法、存储介质和装置。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]一种用于监管领域的文本纠错方法,包括:
[0007]S1,获取ASR实时转译文本;
[0008]S2,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;
[0009]S3,通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本。
[0010]本专利技术的有益效果是:本方案通过BERT分类模型对转译文本进行分类处理,经分类处理后,根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理,获得纠错文本,有效的提升直播场景下监管各领域内 ASR对音频转译文本的字准确率,并快速应用到相关领域。
[0011]对于每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
[0012]采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据。使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分。
[0013]进一步地,所述S3之后还包括:
[0014]将所述纠错文本输入所述BERT分类模型中进行分类处理,当所述分类结果中的所述领域与所述标签一致,则返回所述纠错文本和所述标签;如果不一致,则对所述转译文本重新分类。
[0015]采用上述进一步方案的有益效果是:本方案通过纠错文本输入所述 BERT分类模型中进行分类处理,判断分类结果中的所述领域与所述标签是否一致,来实现纠错文本的分类复查,提高分类和纠错精确度。
[0016]进一步地,在所述S2之前还包括:
[0017]采用双编码的BERT模型;
[0018]在所述BERT模型的输出层设置句子向量;
[0019]在所述BERT模型的输出层使用softmax函数,并在输出层设置分类参数;
[0020]通过交叉熵损失函数计算所述BERT模型的迭代损失;
[0021]通过Adam使用学习率衰减方法更新BERT模型参数,实现所述BERT 分类模型构建。
[0022]采用上述进一步方案的有益效果是:本发通过构建的BERT分类模型实现转译文本的监管子领域划分,提升各子监管领域和纠错算法的适配性和监管准确性。
[0023]进一步地,所述S2之前还包括:
[0024]收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
[0025]按照监管类别分别对所述转译文本和所述标准文本标注所属监管子领域,获得第一标注语料转译文本和第一标注语料标准文本;
[0026]通过所述第一标注语料转译文本和所述第一标注语料标准文本存入数据库中对应的监管领域数据库,构成原始语料库。
[0027]采用上述进一步方案的有益效果是:本方案通过构建的原始语料库为 BERT分类模型和子领域BERT纠错模型提供训练源。
[0028]进一步地,所述S2之前还包括:将所述第一标注语料转译文本设置为所述BERT分类模型的负样本;
[0029]在所述第一标注语料标准文本中选取容易误判为所述负样本的正面语料和随机选取正常语料作为所述BERT分类模型的正样本;
[0030]根据所述负样本和所述正样本构建分类训练集;
[0031]设置所述BERT分类模型的模型参数;
[0032]将所述分类训练集输入所述BERT分类模型中对所述BERT分类模型进行训练,获得训练后的所述BERT分类模型。
[0033]采用上述进一步方案的有益效果是:本方案采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据,使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分结果。
[0034]进一步地,在所述S3之前还包括:
[0035]在所述原始语料库中分别获取每个监管子领域的ASR的转译文本和人工转译的标准文本;
[0036]使用对齐算法对所述转译文本和所述标准文本进行对齐处理,获得纠错训练集。
[0037]进一步地,在所述S3之前还包括:设置所述子领域BERT纠错模型的训练参数,将所述纠错训练集作为所述子领域BERT纠错模型的输入,将所述标准文本作为训练目标,对所
述子领域BERT纠错模型进行训练,获得训练后的所述子领域BERT纠错模型。
[0038]采用上述进一步方案的有益效果是:本方案通过训练后的子领域BERT 纠错模型实现对每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
[0039]进一步地,在所述S3之前还包括:
[0040]在子领域BERT纠错模型的输出层新增一层全连接网络层;
[0041]将所述子领域BERT纠错模型每个token神经元的输出映射为所述 BERT预训练模型的词向量维度值;
[0042]通过layer normalization对所述子领域BERT纠错模型进行归一化约束处理,获取归一化处理后的所述子领域BERT纠错模型的embedding参数矩阵;
[0043]通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述子领域BERT纠错模型的词向量值;
[0044]通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述子领域BERT纠错模型的迭代损失;
[0045]最后通过Adam使用学习率衰减方式更新所述子领域BERT纠错模型的 embed本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于监管领域的文本纠错方法,其特征在于,包括:S1,获取ASR实时转译文本;S2,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;S3,通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本。2.根据权利要求1所述的一种用于监管领域的文本纠错方法,其特征在于,所述S3之后还包括:将所述纠错文本输入所述BERT分类模型中进行分类处理,当所述分类结果中的所述领域与所述标签一致,则返回所述纠错文本和所述标签;如果不一致,则对所述转译文本重新分类。3.根据权利要求1所述的一种用于监管领域的文本纠错方法,其特征在于,在所述S2之前还包括:采用双编码的BERT模型;在所述BERT模型的输出层设置句子向量;在所述BERT模型的输出层使用softmax函数,并在输出层设置分类参数;通过交叉熵损失函数计算所述BERT模型的迭代损失;通过Adam使用学习率衰减方法更新BERT模型参数,实现所述BERT分类模型构建。4.根据权利要求1或3所述的一种用于监管领域的文本纠错方法,其特征在于,所述S2之前还包括:收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;按照监管类别分别对所述转译文本和所述标准文本标注所属监管子领域,获得第一标注语料转译文本和第一标注语料标准文本;通过所述第一标注语料转译文本和所述第一标注语料标准文本存入数据库中对应的监管领域数据库,构成原始语料库。5.根据权利要求4所述的一种用于监管领域的文本纠错方法,其特征在于,所述S2之前还包括:将所述第一标注语料转译文本设置为所述BERT分类模型的负样本;在所述第一标注语料标准文本中选取容易误判为所述负样本的正面语料和随机选取正常语料作为所述BERT分类模型的正样本;根据所述负样本和所述正样本构建分类训练集;设置所述BERT分类模型的模型参数;将所述分类训练集输入所述BERT分类模型中对所述BERT分类模...

【专利技术属性】
技术研发人员:孙晓兵齐路唐会军刘栓林
申请(专利权)人:北京数美时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1