本发明专利技术提供一种不良用语识别方法,包括:获取文本信息;独热编码所述文本信息中的每个词,得到所述每个词的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。本发明专利技术还提供一种不良用语识别的装置、电子装置及存储介质。通过本发明专利技术可以准确识别不良用语。
Identification method, device, electronic device and storage medium of bad words
【技术实现步骤摘要】
不良用语识别方法、装置、电子装置及存储介质
本专利技术涉及计算机
,具体涉及一种不良用语识别方法、装置、电子装置及存储介质。
技术介绍
近两年里,互联网保持着过去的强悍增长势头更加进一步深入到了人们生活的方方面面。比如出现了各种各样的直播软件,如斗鱼直播和虎牙直播等,又比如出现了各种各样的信息流应用程序,如抖音和头条等。这些软件或应用程序的出现给人们带来了日益丰富多彩的精神生活,然而由于其开放性也带来了一些问题。例如,在上述软件或应用程序中会出现辱骂性的、歧视性的和戾气很重的不良言论。如果不良言论或不良文章成为了主流,那么会严重危害心智不成熟的网民的身心健康与人格成长,同时也极大降低互联网产品的用户体验。因此,网络环境秩序的维护日益重要,且对用户输出的信息做出一定的过滤是必要的且正当的。
技术实现思路
鉴于以上内容,有必要提出一种不良用语识别方法、装置、电子装置及存储介质,可以准确识别文本信息中的不良用语。本专利技术的第一方面提供一种不良用语识别方法,所述方法包括:获取文本信息;独热编码所述文本信息中的每个词,得到所述每个词的特征向量;通过预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。优选地,所述方法还包括:对所述文本信息进行预处理,其中,所述预处理包括去停用词和去噪声词中的至少一种。优选地,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。优选地,所述比对计算的概率与概率阈值确定所述文本信息是否为不良用语包括:当所述概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;当所述概率小于所述概率阈值时,确认所述文本信息不是不良用语。优选地,所述浅层神经网络为DNN神经网络,通过交叉熵损失值优化所述概率阈值。优选地,所述方法还包括:提取所述不良用语;根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。优选地,所述根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇包括:提取所述文本信息中与所述不良用语相关的疑似变形词汇;将所述不良用语和所述疑似变形词汇转换成音码;通过编辑距离计算所述不良用语的音码与所述疑似变形词汇的音码之间的相似度;当所述相似度大于或等于预设值时,确认所述疑似变形词汇为所述不良用语的变形体;当所述相似度小于所述预设值时,确认所述疑似变形词汇不是所述不良用语的变形体。本专利技术的第二方面提供一种不良用语识别的装置,所述装置包括:获取模块,用于获取文本信息;编码模块,用于独热编码所述文本信息中的每个词,得到所述每个词的特征向量;处理模块,用于通过预先训练的词向量模型处理所述特征向量得到词向量信息;输入模块,用于将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;计算模块,用于将所述输出结果输入至浅层神经网络中完成概率计算;及比对模块,用于比对计算的概率与概率阈值确定所述文本信息是否为不良用语。本专利技术的第三方面提供一种电子装置,所述电子装置包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述不良用语识别方法。本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述不良用语识别方法。本专利技术所述的不良用语识别方法、装置、电子装置及存储介质。通过独热编码文本信息中的每个词,得到所述每个词的特征向量;再预先训练的词向量模型处理所述特征向量得到词向量信息;将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;将所述输出结果输入至浅层神经网络中完成概率计算;及比对计算的概率与概率阈值确定所述文本信息是否为不良用语。从而可以识别所述文本信息中的不良用语。所述不良用语识别方法还可以识别所述文本信息中与所述不良用语相关的变形词汇,从而提高不良用语的识别率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本专利技术实施例一提供的不良用语识别方法的流程图。图2是本专利技术实施例二提供的不良用语识别的装置的功能模块图。图3是本专利技术实施例三提供的电子装置的示意图。如下具体实施方式将结合上述附图进一步说明本专利技术。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本专利技术的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例的不良用语识别方法应用在电子装置中。所述对于需要进行不良用语识别的电子装置,可以直接在电子装置上集成本专利技术的方法所提供的识别不良用语的功能,或者安装用于实现本专利技术的方法的客户端。再如,本专利技术所提供的方法还可以以软件开发工具包(SoftwareDevelopmentKit,SDK)的形式运行在服务器等设备上,以SDK的形式提供识别不良用语的功能的接口,电子装置或其他设备通过提供的接口即可实现识别不良用语的功能。实施例一图1是本专利技术实施例一提供的不良用语识别方法的流程图。根据不同的需求,所述流程图中的执行顺序可以改变,某些步骤可以省略。步骤S1,获取文本信息。在本实施方式中,所述文本信息可以是用户输入的文本信息,也可以是根据采集的语音信息进行文本转换后得到的文本信息。例如,当所述不良用语识别方法用于识别本文档来自技高网...
【技术保护点】
1.一种不良用语识别方法,其特征在于,所述方法包括:/n获取文本信息;/n独热编码所述文本信息中的每个词,得到所述每个词的特征向量;/n通过预先训练的词向量模型处理所述特征向量得到词向量信息;/n将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;/n将所述输出结果输入至浅层神经网络中完成概率计算;及/n比对计算的概率与概率阈值确定所述文本信息是否为不良用语。/n
【技术特征摘要】
1.一种不良用语识别方法,其特征在于,所述方法包括:
获取文本信息;
独热编码所述文本信息中的每个词,得到所述每个词的特征向量;
通过预先训练的词向量模型处理所述特征向量得到词向量信息;
将所述文本信息中每个词的词向量信息依次输入神经网络模型中,得到输出结果;
将所述输出结果输入至浅层神经网络中完成概率计算;及
比对计算的概率与概率阈值确定所述文本信息是否为不良用语。
2.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
对所述文本信息进行预处理,其中,所述预处理包括去停用词和去噪声词中的至少一种。
3.如权利要求1所述的不良用语识别方法,其特征在于,所述神经网络模型为双向GRU神经网络模型,用于获取所述文本信息的语义信息。
4.如权利要求1所述的不良用语识别方法,其特征在于,所述比对计算的概率与概率阈值确定所述文本信息是否为不良用语包括:
当所述计算的概率大于或等于所述概率阈值时,确认所述文本信息为不良用语;
当所述计算的概率小于所述概率阈值时,确认所述文本信息不是不良用语。
5.如权利要求4所述的不良用语识别方法,其特征在于,所述浅层神经网络为DNN神经网络,通过交叉熵损失值优化所述概率阈值。
6.如权利要求1所述的不良用语识别方法,其特征在于,所述方法还包括:
提取所述不良用语;
根据所述不良用语识别所述文本信息中与所述不良用语相关的变形词汇。
【专利技术属性】
技术研发人员:曾昱为,瞿晓阳,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。