一种文本数据处理方法及装置制造方法及图纸

技术编号：26381142 阅读：20 留言：0更新日期：2020-11-19 23:49

本申请公开了一种文本数据处理方法，应用于人工智能领域，包括：获取目标文本；根据噪声生成模型，对所述目标文本进行处理，得到加噪声的文本；其中，在训练所述噪声生成模型的过程中，噪声生成模型的训练数据至少包括第一文本以及第二文本，所述第一文本为语音数据对应的正确文本，所述第二文本为通过第一语音识别模型对所述语音数据进行语音识别得到的文本；至少以所述加噪声的文本作为训练数据，对文本处理模型进行训练，得到训练后的文本处理模型。本申请中的噪声生成模型由于是基于第一语音识别模型的识别结果进行训练得到的，相比于基于规则和词替换的带噪样本生成方法，使用噪声生成模型生成的带噪样本更能反映真实的噪声生成模型的错误。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据处理方法及装置
本申请涉及人工智能领域，尤其涉及一种文本数据处理方法及装置。
技术介绍
人工智能(artificialintelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。近年来，语音技术的发展催生了很多基于语音技术的应用，如语音助手、智能家居、语音翻译等。目前，业界基于语音技术的应用一般都是先经过自动语音识别(automaticspeechrecognition，ASR)模块识别成文本，再由文本处理模块对文本进行处理，比如进行语音翻译，自动应答等等。由于环境噪音和用户口音等多种因素干扰，语音识别模型经常出现识别错误，如同音词、近音词、重复、断句错误等。而位于语音识别下游的文本处理...

【技术保护点】
1.一种文本数据处理方法，其特征在于，包括：/n获取目标文本；/n根据噪声生成模型，对所述目标文本进行处理，得到加噪声的文本；其中，在训练所述噪声生成模型的过程中，所述噪声生成模型的训练数据至少包括第一文本以及第二文本，所述第一文本为语音数据对应的正确文本，所述第二文本为通过第一语音识别模型对所述语音数据进行语音识别得到的文本；/n至少以所述加噪声的文本作为训练数据，对文本处理模型进行训练，得到训练后的文本处理模型。/n

【技术特征摘要】
1.一种文本数据处理方法，其特征在于，包括：
获取目标文本；
根据噪声生成模型，对所述目标文本进行处理，得到加噪声的文本；其中，在训练所述噪声生成模型的过程中，所述噪声生成模型的训练数据至少包括第一文本以及第二文本，所述第一文本为语音数据对应的正确文本，所述第二文本为通过第一语音识别模型对所述语音数据进行语音识别得到的文本；
至少以所述加噪声的文本作为训练数据，对文本处理模型进行训练，得到训练后的文本处理模型。

2.根据权利要求1所述的方法，其特征在于，在所述噪声生成模型的输入包括所述第一文本的情况下，所述噪声生成模型的输出包括输出文本，且所述输出文本与所述第二文本之间的差异在预设范围内。

3.根据权利要求1或2所述的方法，其特征在于，所述训练后的文本处理模型用于实现如下任务的至少一种：文本翻译、文本语义识别、文本分类、自动问答、信息推荐以及文本情感识别。

4.根据权利要求1至3任一所述的方法，其特征在于，所述目标文本和所述加噪声的文本之间的差异在预设范围内。

5.根据权利要求1至4任一所述的方法，其特征在于，所述目标文本和所述加噪声的文本之间的发音差异在预设范围内；和/或，
所述目标文本包括的字符串和所述加噪声的文本包括的字符串的差异在预设范围内。

6.根据权利要求1至5任一所述的方法，其特征在于，所述第一文本和所述第二文本为不同的文本。

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据噪声生成模型，对所述目标文本进行处理，包括：
根据噪声生成模型，对所述目标文本进行处理，得到多个加噪声的文本，以及每个加噪声的文本的置信度；根据所述置信度，从所述多个加噪声的文本选择一个或多个加噪声的文本；所述至少以所述加噪声的文本作为训练数据，对文本处理模型进行训练，包括：
至少以所述一个或多个加噪声的文本作为训练数据，对文本处理模型进行训练。

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：
获取待识别语音；
根据第二语音识别模型对所述待识别语音进行处理，得到识别文本；
根据所述训练后的文本处理模型，对所述识别文本进行处理，得到处理结果。

9.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：
获取所述语音数据以及所述第一文本；
基于所述第一语音识别模型对所述语音数据进行处理，得到所述第二文本；
根据初始噪声生成模型对所述第一文本进行处理，得到输出文本；
根据所述输出文本和所述第二文本，获取损失，并基于所述损失，更新所述初始噪声生成模型，直到所述损失满足预设条件，得到所述噪声生成模型。

10.根据权利要求1至9任一所述的方法，其特征在于，所述噪声生成模型为如下的至少一种：双向长短期记忆网络LSTM、GPT(generativepre-training)模型或LaserTagger模型。

11.一种模型训练方法，其特征在于，所述方法包括：
获取语音数据...

【专利技术属性】
技术研发人员：崔桐，肖镜辉，李良友，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人