【技术实现步骤摘要】
文本噪声数据识别方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,特别是涉及文本噪声数据识别方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而文本数据处理又可视为自然语言处理的基础,是其重要的一环。在对文本数据进行分析时,一些噪声数据对数据分析工作产生了很大的不利影响,因此,出现了利用机器学习或深度学习算法识别文本数据中的噪声数据的方法,传统的文本噪声数据识别的方法多是对不同类型的文本数据如句子或短语数据进行标注,通过识别标注数据进而识别出噪声数据。上述方法虽然可以一定程度上识别出噪声数据,但是需要做较多的标记工作,耗费人力,且计算机在识别时需要执行大量的识别操作,对计算机硬件消耗较大降低了数据识别的处理速度,同时大量的标注数据还会影响噪声数据识别的准确率,因此,传统的文本噪声数据识别方法存在识别效率较低的问题。
技术实现思路
基于此,有必要针对现有的文本噪声数据识别效率较低的问题,提供一种高效的文本噪声数据识别方法、装置、计算机设备和存储介质。一种文本噪声数据识别方法,方法包括:获取文本数据;对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出 ...
【技术保护点】
1.一种文本噪声数据识别方法,其特征在于,所述方法包括:/n获取文本数据;/n对所述文本数据进行分句处理,得到切分后的句子、并提取所述切分后的句子的位置向量;/n将所述切分后的句子输入至已训练的句子相关性分类模型,为所述切分后的句子添加标签数据,得到句子相关性向量,所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;/n将所述句子相关性向量以及所述句子的位置向量进行拼接,得到拼接矩阵、并基于所述拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。/n
【技术特征摘要】
1.一种文本噪声数据识别方法,其特征在于,所述方法包括:
获取文本数据;
对所述文本数据进行分句处理,得到切分后的句子、并提取所述切分后的句子的位置向量;
将所述切分后的句子输入至已训练的句子相关性分类模型,为所述切分后的句子添加标签数据,得到句子相关性向量,所述句子相关性向量为所述已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,所述句子相关性分类模型采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;
将所述句子相关性向量以及所述句子的位置向量进行拼接,得到拼接矩阵、并基于所述拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。
2.根据权利要求1所述的文本噪声数据识别方法,其特征在于,所述对所述文本数据进行分句处理包括:
采用预设的分句算法,将所述文本数据切分为多个句子;
根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足所述预设的句子长度阈值。
3.根据权利要求1所述的文本噪声数据识别方法,其特征在于,所述将切分后的句子输入至已训练的句子相关性分类模型之前,还包括:
采集历史文本数据,所述历史文本数据携带标注信息;
根据所述标注信息,对所述历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据;
为所述携带标签数据的训练数据设置对应的dropout概率;
基于所述dropout概率,对所述携带标签数据的训练数据进行dropout处理,更新训练数据;
采用更新后的训练数据训练初始句子相关性分类模型,得到所述已训练的句子相关性分类模型。
4.根据权利要求3所述的文本噪声数据识别方法,其特征在于,所述根据所述标注信息,对所述历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据包括:
将所述历史文本数据切分为多个句子;
识别所述历史文本数据的标注信息;
若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据;
若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。
5.根据权利要求4所述的文本噪声数据识别方法,其特征在于,所述为所述携带标签数据的训练数据设置对应的dropout概率包括:
将携带所述相关标签的训练数据和携带不相关标签的训练数据分别输入至所述初始句子相关性分类模型;
采用所述dropout机制为所述携带相关标签的训...
【专利技术属性】
技术研发人员:韩旭红,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。