一种用于监管领域的文本纠错方法、存储介质和装置制造方法及图纸

技术编号：33642449 阅读：19 留言：0更新日期：2022-06-02 20:18

本发明专利技术公开了一种用于监管领域的文本纠错方法、存储介质和装置，涉及直播领域。该方法包括：获取ASR实时转译文本，通过训练后的BERT分类模型对所述转译文本进行分类处理，并输出所述转译文本所属监管子领域，并根据所述监管子领域对所述转译文本打上标签；通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理，获得纠错文本。通过BERT分类模型对转译文本进行分类处理，经分类处理后，根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理，获得纠错文本，有效的提升直播场景下监管各领域内ASR对音频转译文本的字准确率，并快速应用到相关领域。并快速应用到相关领域。并快速应用到相关领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于监管领域的文本纠错方法、存储介质和装置

[0001]本专利技术涉及直播领域，尤其涉及一种用于监管领域的文本纠错方法、存储介质和装置。

技术介绍

[0002]随着网络直播行业的兴起，极大扩张了人们的社交渠道，与此同时，网络行业的监管需愈加复杂。由于直播环境和自动语音识别技术(简称ASR，下同)的不足，使得ASR出现足以改变音频语义的错误转译信息，使得监管问题层出不穷，因此对直播场景中的监管领域数据的ASR转译数据进行纠正成为了重要的技术瓶颈。
[0003]传统的纠错方法是直接在ASR转译文本后只使用通用领域的纠错方法。此类方法的缺陷一方面是监管和通用领域的数据分布不够匹配，通用领域的数据分布要包含监管领域的数据分布，并且更为广泛。另一方面是监管领域包含众多细分的监管，将众多监管子领域纠错任务集成在一起，难以获得准确领域结果，传统纠错方式对监管领域的评估效果较差。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对现有技术的不足，提供一种用于监管领域的文本纠错方法、存储介质和装置。
[0005]本专利技术解决上述技术问题的技术方案如下：
[0006]一种用于监管领域的文本纠错方法，包括：
[0007]S1，获取ASR实时转译文本；
[0008]S2，通过训练后的BERT分类模型对所述转译文本进行分类处理，并输出所述转译文本所属监管子领域，并根据所述监管子领域对所述转译文本打上标签；
[0009]S3，通过训练后的子领域BERT纠错模型对带标...

【技术保护点】

【技术特征摘要】
1.一种用于监管领域的文本纠错方法，其特征在于，包括：S1，获取ASR实时转译文本；S2，通过训练后的BERT分类模型对所述转译文本进行分类处理，并输出所述转译文本所属监管子领域，并根据所述监管子领域对所述转译文本打上标签；S3，通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理，获得纠错文本。2.根据权利要求1所述的一种用于监管领域的文本纠错方法，其特征在于，所述S3之后还包括：将所述纠错文本输入所述BERT分类模型中进行分类处理，当所述分类结果中的所述领域与所述标签一致，则返回所述纠错文本和所述标签；如果不一致，则对所述转译文本重新分类。3.根据权利要求1所述的一种用于监管领域的文本纠错方法，其特征在于，在所述S2之前还包括：采用双编码的BERT模型；在所述BERT模型的输出层设置句子向量；在所述BERT模型的输出层使用softmax函数，并在输出层设置分类参数；通过交叉熵损失函数计算所述BERT模型的迭代损失；通过Adam使用学习率衰减方法更新BERT模型参数，实现所述BERT分类模型构建。4.根据权利要求1或3所述的一种用于监管领域的文本纠错方法，其特征在于，所述S2之前还包括：收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本；按照监管类别分别对所述转译文本和所述标准文本标注所属监管子领域，获得第一标注语料转译文本和第一标注语料标准文本；通过所述第一标注语料转译文本和所述第一标注语料标准文本存入数据库中对应的监管领域数据库，构成原始语料库。5.根据权利要求4所述的一种用于监管领域的文本纠错方法，其特征在于，所述S2之前还包括：将所述第一标注语料转译文本设置为所述BERT分类模型的负样本；在所述第一标注语料标准文本中选取容易误判为所述负样本的正面语料和随机选取正常语料作为所述BERT分类模型的正样本；根据所述负样本和所述正样本构建分类训练集；设置所述BERT分类模型的模型参数；将所述分类训练集输入所述BERT分类模型中对所述BERT分类模...

【专利技术属性】
技术研发人员：孙晓兵，齐路，唐会军，刘栓林，
申请(专利权)人：北京数美时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人