文本噪声数据识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：27879199 阅读：11 留言：0更新日期：2021-03-31 01:08

本申请涉及一种文本噪声数据识别方法、装置、计算机设备和存储介质，通过对文本数据进行分句处理，以切分后的句子为数据处理的基点，将复杂的文本数据处理的任务转换为简单的句子数据处理任务，并且不同以往采用dropout机制对神经元进行dropout处理，本方案是采用dropout机制对携带标签数据的训练数据进行dropout处理，防止模型训练出现过拟合的问题，且通过训练数据训练出的句子相关性分类模型，能够为输入的文本数据添加相应的标签数据，无需标注大量文本数据，节省了人力成本的同时，还提高了数据处理的速度，并且，基于由句子相关性向量以及位置向量拼接得到的拼接矩阵，进行噪声预测，能够提高噪声数据识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本噪声数据识别方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
，特别是涉及文本噪声数据识别方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而文本数据处理又可视为自然语言处理的基础，是其重要的一环。在对文本数据进行分析时，一些噪声数据对数据分析工作产生了很大的不利影响，因此，出现了利用机器学习或深度学习算法识别文本数据中的噪声数据的方法，传统的文本噪声数据识别的方法多是对不同类型的文本数据如句子或短语数据进行标注，通过识别标注数据进而识别出噪声数据。上述方法虽然可以一定程度上识别出噪声数据，但是需要做较多的标记工作，耗费人力，且计算机在识别时需要执行大量的识别操作，对计算机硬件消耗较大降低了数据识别的处理速度，同时大量的标注数据还会影响噪声数据识别的准确率，因此，传统的文本噪声数据识别方法存在识别效率较低的问题。
技术实现思路
基于此，有必要针对现有的文本噪声数据识别效率较低的问题，提供一种高效的文本噪声数据识别方法、装置、计算机设备和存储介质。一种文本噪声数据识别方法，方法包括：获取文本数据；对文本数据进行分句处理，得到切分后的句子、并提取切分后的句子的位置向量；将切分后的句子输入至已训练的句子相关性分类模型，为切分后的句子添加标签数据，得到句子相关性向量，句子相关性向量为已训练的句子相关性分类模型的隐藏层输出...

【技术保护点】
1.一种文本噪声数据识别方法，其特征在于，所述方法包括：/n获取文本数据；/n对所述文本数据进行分句处理，得到切分后的句子、并提取所述切分后的句子的位置向量；/n将所述切分后的句子输入至已训练的句子相关性分类模型，为所述切分后的句子添加标签数据，得到句子相关性向量，所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量，所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到；/n将所述句子相关性向量以及所述句子的位置向量进行拼接，得到拼接矩阵、并基于所述拼接矩阵，对文本数据进行噪声预测，得到噪声识别结果。/n

【技术特征摘要】
1.一种文本噪声数据识别方法，其特征在于，所述方法包括：
获取文本数据；
对所述文本数据进行分句处理，得到切分后的句子、并提取所述切分后的句子的位置向量；
将所述切分后的句子输入至已训练的句子相关性分类模型，为所述切分后的句子添加标签数据，得到句子相关性向量，所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量，所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到；
将所述句子相关性向量以及所述句子的位置向量进行拼接，得到拼接矩阵、并基于所述拼接矩阵，对文本数据进行噪声预测，得到噪声识别结果。

2.根据权利要求1所述的文本噪声数据识别方法，其特征在于，所述对所述文本数据进行分句处理包括：
采用预设的分句算法，将所述文本数据切分为多个句子；
根据预设的句子长度阈值，对切分后的句子进行分割或拼接，以保证切分后的句子的长度满足所述预设的句子长度阈值。

3.根据权利要求1所述的文本噪声数据识别方法，其特征在于，所述将切分后的句子输入至已训练的句子相关性分类模型之前，还包括：
采集历史文本数据，所述历史文本数据携带标注信息；
根据所述标注信息，对所述历史文本数据进行分句和打标签处理，得到携带标签数据的训练数据；
为所述携带标签数据的训练数据设置对应的dropout概率；
基于所述dropout概率，对所述携带标签数据的训练数据进行dropout处理，更新训练数据；
采用更新后的训练数据训练初始句子相关性分类模型，得到所述已训练的句子相关性分类模型。

4.根据权利要求3所述的文本噪声数据识别方法，其特征在于，所述根据所述标注信息，对所述历史文本数据进行分句和打标签处理，得到携带标签数据的训练数据包括：
将所述历史文本数据切分为多个句子；
识别所述历史文本数据的标注信息；
若历史文本数据的标注信息为噪声数据，则将从该历史文本数据切分出的句子的标签标记为不相关标签，得到携带相关标签的训练数据；
若历史文本数据的标注信息为非噪声数据，则将从该历史文本数据切分出的句子的标签标记为相关标签，得到携带不相关标签的训练数据。

5.根据权利要求4所述的文本噪声数据识别方法，其特征在于，所述为所述携带标签数据的训练数据设置对应的dropout概率包括：
将携带所述相关标签的训练数据和携带不相关标签的训练数据分别输入至所述初始句子相关性分类模型；
采用所述dropout机制为所述携带相关标签的训...

【专利技术属性】
技术研发人员：韩旭红，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人