【技术实现步骤摘要】
不良用语识别方法、装置、电子装置及存储介质
本专利技术涉及计算机
,具体涉及一种不良用语识别方法、装置、电子装置及存储介质。
技术介绍
近两年里,互联网保持着过去的强悍增长势头更加进一步深入到了人们生活的方方面面。比如出现了各种各样的直播软件,如斗鱼直播和虎牙直播等,又比如出现了各种各样的信息流应用程序,如抖音和头条等。这些软件或应用程序的出现给人们带来了日益丰富多彩的精神生活,然而由于其开放性也带来了一些问题。例如,在上述软件或应用程序中会出现辱骂性的、歧视性的和戾气很重的不良言论。如果不良言论或不良文章成为了主流,那么会严重危害心智不成熟的网民的身心健康与人格成长,同时也极大降低互联网产品的用户体验。因此,网络环境秩序的维护日益重要,且对用户输出的信息做出一定的过滤是必要的且正当的。
技术实现思路
鉴于以上内容,有必要提出一种不良用语识别方法、装置、电子装置及存储介质,可以准确识别文本信息中的不良用语。本专利技术的第一方面提供一种不良用语识别方法,所述方法包括:获取文本信息;r>独热编码所述文本本文档来自技高网...
【技术保护点】
1.一种不良用语识别方法,其特征在于,所述方法包括:/n获取文本信息;/n独热编码所述文本信息中的每个词,得到所述每个词的特征向量;/n通过预先训练的词向量模型处理所述特征向量得到词向量信息;/n将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;/n将所述输出结果输入至浅层神经网络中完成概率计算;及/n比对计算的概率与概率阈值确定所述文本信息是否为不良用语。/n
【技术特征摘要】 【专利技术属性】
1.一种不良用语识别方法,其特征在于,所述方法包括:
获取文本信息;
独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
通过预先训练的词向量模型处理所述特征向量得到词向量信息;
将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
将所述输出结果输入至浅层神经网络中完成概率计算;及
比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
2.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
对所述文本信息进行预处理,其中,所述预处理包括去停用词和去噪声词中的至少一种。
3.如权利要求1所述的不良用语识别方法,其特征在于,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。
4.如权利要求1所述的不良用语识别方法,其特征在于,所述比对计算的概率与概率阈值确定所述文本信息是否为不良用语包括:
当所述计算的概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;
当所述计算的概率小于所述概率阈值时,确认所述文本信息不是不良用语。
5.如权利要求4所述的不良用语识别方法,其特征在于,所述浅层神经网络为DNN神经网络,通过交叉熵损失值优化所述概率阈值。
6.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
提取所述不良用语;
根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。
技术研发人员:曾昱为,瞿晓阳,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。