文本噪声数据识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27879199 阅读:11 留言:0更新日期:2021-03-31 01:08
本申请涉及一种文本噪声数据识别方法、装置、计算机设备和存储介质,通过对文本数据进行分句处理,以切分后的句子为数据处理的基点,将复杂的文本数据处理的任务转换为简单的句子数据处理任务,并且不同以往采用dropout机制对神经元进行dropout处理,本方案是采用dropout机制对携带标签数据的训练数据进行dropout处理,防止模型训练出现过拟合的问题,且通过训练数据训练出的句子相关性分类模型,能够为输入的文本数据添加相应的标签数据,无需标注大量文本数据,节省了人力成本的同时,还提高了数据处理的速度,并且,基于由句子相关性向量以及位置向量拼接得到的拼接矩阵,进行噪声预测,能够提高噪声数据识别的准确率。

【技术实现步骤摘要】
文本噪声数据识别方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,特别是涉及文本噪声数据识别方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而文本数据处理又可视为自然语言处理的基础,是其重要的一环。在对文本数据进行分析时,一些噪声数据对数据分析工作产生了很大的不利影响,因此,出现了利用机器学习或深度学习算法识别文本数据中的噪声数据的方法,传统的文本噪声数据识别的方法多是对不同类型的文本数据如句子或短语数据进行标注,通过识别标注数据进而识别出噪声数据。上述方法虽然可以一定程度上识别出噪声数据,但是需要做较多的标记工作,耗费人力,且计算机在识别时需要执行大量的识别操作,对计算机硬件消耗较大降低了数据识别的处理速度,同时大量的标注数据还会影响噪声数据识别的准确率,因此,传统的文本噪声数据识别方法存在识别效率较低的问题。
技术实现思路
基于此,有必要针对现有的文本噪声数据识别效率较低的问题,提供一种高效的文本噪声数据识别方法、装置、计算机设备和存储介质。一种文本噪声数据识别方法,方法包括:获取文本数据;对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。在其中一个实施例中,对文本数据进行分句处理包括:采用预设的分句算法,将文本数据切分为多个句子;根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足预设的句子长度阈值。在其中一个实施例中,将切分后的句子输入至已训练的句子相关性分类模型之前,还包括:采集历史文本数据,历史文本数据携带标注信息;根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据;为携带标签数据的训练数据设置对应的dropout概率;基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据;采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。在其中一个实施例中,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据包括:将历史文本数据切分为多个句子;识别历史文本数据的标注信息;若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据;若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。在其中一个实施例中,为携带标签数据的训练数据设置对应的dropout概率包括:将携带相关标签的训练数据和携带不相关标签的训练数据分别输入至初始句子相关性分类模型;采用dropout机制为携带相关标签的训练数据设置第一dropout概率,采用dropout机制为携带不相关标签的训练数据设置第二dropout概率。在其中一个实施例中,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据包括:基于第一dropout概率,随机丢弃部分携带相关标签的训练数据,得到第一训练集;基于第二dropout概率,随机丢弃部分携带不相关标签的训练数据,得到第二训练集;将第一训练集以及第二训练集进行组合作为新的训练数据再次输入至初始句子相关性分类模型,返回基于第一dropout概率,随机丢弃部分携带相关标签的训练数据的步骤,直至返回次数达到预设次数阈值。一种文本噪声数据识别装置,装置包括:数据获取模块,用于获取文本数据;分句处理模块,用于对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;句子相关性处理模块,用于将切分后的句子输入至已训练的句子相关性分类模型,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;噪声预测模块,用于将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。在其中一个实施例中,装置还包括:模型训练模块,用于采集历史文本数据,历史文本数据携带标注信息,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据,为携带标签数据的训练设置对应的dropout概率,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据,采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取文本数据;对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取文本数据;对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。上述文本噪声数据识别方法、装置、计算机设备和存储介质,通过对文本数据进行分句处理,以切分后的句子为数据处理的基点,将复杂的文本数据处理的任务转换为简单的句子数据处理任务,并且不同以本文档来自技高网...

【技术保护点】
1.一种文本噪声数据识别方法,其特征在于,所述方法包括:/n获取文本数据;/n对所述文本数据进行分句处理,得到切分后的句子、并提取所述切分后的句子的位置向量;/n将所述切分后的句子输入至已训练的句子相关性分类模型,为所述切分后的句子添加标签数据,得到句子相关性向量,所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;/n将所述句子相关性向量以及所述句子的位置向量进行拼接,得到拼接矩阵、并基于所述拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。/n

【技术特征摘要】
1.一种文本噪声数据识别方法,其特征在于,所述方法包括:
获取文本数据;
对所述文本数据进行分句处理,得到切分后的句子、并提取所述切分后的句子的位置向量;
将所述切分后的句子输入至已训练的句子相关性分类模型,为所述切分后的句子添加标签数据,得到句子相关性向量,所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;
将所述句子相关性向量以及所述句子的位置向量进行拼接,得到拼接矩阵、并基于所述拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。


2.根据权利要求1所述的文本噪声数据识别方法,其特征在于,所述对所述文本数据进行分句处理包括:
采用预设的分句算法,将所述文本数据切分为多个句子;
根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足所述预设的句子长度阈值。


3.根据权利要求1所述的文本噪声数据识别方法,其特征在于,所述将切分后的句子输入至已训练的句子相关性分类模型之前,还包括:
采集历史文本数据,所述历史文本数据携带标注信息;
根据所述标注信息,对所述历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据;
为所述携带标签数据的训练数据设置对应的dropout概率;
基于所述dropout概率,对所述携带标签数据的训练数据进行dropout处理,更新训练数据;
采用更新后的训练数据训练初始句子相关性分类模型,得到所述已训练的句子相关性分类模型。


4.根据权利要求3所述的文本噪声数据识别方法,其特征在于,所述根据所述标注信息,对所述历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据包括:
将所述历史文本数据切分为多个句子;
识别所述历史文本数据的标注信息;
若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据;
若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。


5.根据权利要求4所述的文本噪声数据识别方法,其特征在于,所述为所述携带标签数据的训练数据设置对应的dropout概率包括:
将携带所述相关标签的训练数据和携带不相关标签的训练数据分别输入至所述初始句子相关性分类模型;
采用所述dropout机制为所述携带相关标签的训...

【专利技术属性】
技术研发人员:韩旭红
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1