网络不良数据监控方法、装置及存储介质制造方法及图纸

技术编号:24853500 阅读:25 留言:0更新日期:2020-07-10 19:07
本发明专利技术涉及网络数据监控技术领域,本发明专利技术提供一种网络不良数据监控方法、装置及计算机可读存储介质,其中的方法包括:对目标文本进行分词处理;将分词集合中的词语与预设不良词汇对照表比对,从分词集合中筛选出不良词语,将不良词语加载到第一不良词汇表;通过词语相似度计算公式,计算出每个待选词语的相似度均值,将相似度均值大于预设相似度阈值的待选词语加载到第一不良词汇表;通过情感分析算法,筛除不满足预设不良词情感趋向规则的词语;通过词语位置结构法,筛除不符合不良词汇语句位置结构的词语。本发明专利技术能够更加精准的发现未登录的不良词汇,与现有技术相比较,收录的不良词汇的精确度和准确度更高。

【技术实现步骤摘要】
网络不良数据监控方法、装置及存储介质
本专利技术涉及网络数据监控
,尤其涉及一种网络不良数据监控方法、装置及计算机可读存储介质。
技术介绍
随着互联网的迅猛发展,信息爆炸的时代早已来临。网络文本作为互联网信息传播的主要载体也得到了飞速的发展,网络语言日新月异,同时网络语言的低俗化日益严重,针对网络不良词汇的监控和发现面临极大的挑战。随着互联网的普遍,各种网络论坛、网络文章和网络媒体等不断出现,每天都有大量的文本产生,在网络上存在大量的不良词汇。网络不良词汇监控的最大难点在于网络语言更新的速度较快、词汇变化多样,且无明显规律。很多检测模型不具有针对未登录词的自动识别功能,或者仅依赖简单的词语之间的相似性计算收集未登录词。这也导致了随着时间的发展,未被系统收录的未登录词越来越多,或者已经收录的未登录词的质量越来越差。这样就会导致现有的监控模型的精度下降,效果大打折扣,不能精准的发现未登录的不良词汇。
技术实现思路
基于上述现有技术中存在的问题,本专利技术提供一种网络不良数据监控方法、装置及计算机可读存储介质,其主要目的在于,通过对目标文本进行分词处理后将每个分词与预设的不良词汇对照表中的不良词汇进行比对,将相同的不良词语加载到第一不良词汇表,由于不良词汇对照表中的不良词汇有限,可能存在与不良词语相似的不良词存在,所以通过词语相似度计算公式对目标文本中的分词再次进行计算,将符合预设相似度阈值范围的词语加载到第一不良词汇表中,由于相似度计算发现的不良词并非是一定的,所以再通过情感分析算法和词语位置结构法对第一不良词汇表中非不良词进行筛除处理,最后输出第三不良词汇表。能够更加精准的发现未登录的不良词汇,与现有技术相比较,收录的不良词汇的精确度更高,提高了准确度。为实现上述目的,本专利技术提供一种网络不良数据监控方法,该方法包括:对目标文本进行分词处理,得到分词集合;将所述分词集合中的词语与预设不良词汇对照表比对,从所述分词集合中筛选出不良词语,将所述不良词语加载到第一不良词汇表,将所述分词集合中筛选后的剩余词语作为待选词语;通过词语相似度计算公式,计算出每个所述待选词语与预设不良词汇对照表中词语的相似度均值,将所述相似度均值大于预设相似度阈值的待选词语加载到所述第一不良词汇表;通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表;通过词语位置结构法,从所述第二不良词汇表中筛除不符合不良词汇语句位置结构的词语,得到第三不良词汇表并输出。优选地,通过词语相似度计算公式,计算出每个待选词语与预设不良词汇对照表中词语的相似度均值的步骤包括:对每个所述待选词语进行向量化处理,得到待选词语的词向量;将每个待选词语的词向量分别与预设的不良词的词向量集合中的不良词向量通过词语相似度计算公式进行相似度计算,得到N个相似度值,其中,所述预设的不良词的词向量集合是通过将所述预设不良词汇对照表中词语进行向量化处理得到的词向量集合;根据N个相似度值,获得所述待选词语与预设不良词汇对照表中词语的相似度均值。优选地,所述词语相似度计算公式为:其中,W1为待选词语的词向量,W2为预设的不良词的词向量集合中任一词向量,n为词向量维度,W1i为W1在i个维度下W1的值,W2i为W2在i个维度下W2的值。优选地,通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表的步骤包括:对所述第一不良词汇表中的词语进行向量化处理,得到待计算词向量;通过词共现频率计算公式分别计算出所述待计算词向量与预构建文明词汇库中词向量的词共现频率和所述待计算词向量与预构建不文明词汇库中词向量的词共现频率,作为待用词共现频率;根据所述待用词共现频率,通过情感分析计算公式计算出所述第一不良词汇表中各词语的情感倾向强度值;将所述第一不良词汇表中各词语的情感倾向强度值与预设情感倾向强度阈值规则比对,根据所述情感倾向强度阈值规则筛除所述第一不良词汇表中不满足预设不良词情感趋向规则的词语,得到第二不良词汇表。优选地,所述词共现频率计算公式为:其中,F(N1,N2)指的是在全部n篇文章中,N1,N2在设定大小的窗口内同时出现的频率,F(N1),F(N2)指的是在全部n篇文章中N1,N2分别出现的频率。优选地,所述情感分析计算公式为:其中,Q为第一不良词汇表中的词语,Cwords为预构建文明词汇库,Iwords为预构建不文明词汇库,PMI(Q,cword)为第一不良词汇表中的词语与预构建文明词汇库中词向量的共现频率,PMI(Q,Iword)为第一不良词汇表中的词语与预构建不文明词汇库中词向量的共现频率,SO-PMI(Q)为第一不良词汇表中词语Q的情感倾向强度值。优选地,所述情感倾向强度阈值规则为:若所述第一不良词汇表中的词语的情感倾向强度值大于或等于零,则该词语为不满足预设不良词情感趋向规则的词语;若所述第一不良词汇表中的词语的情感倾向强度值小于零,则该词语为满足预设不良词情感趋向规则的词语。优选地,通过词语位置结构法,从所述第二不良词汇表中筛除不符合不良词汇语句位置结构的词语的步骤包括:将所述第二不良词汇表中的词语与预先构建的不良词汇语句模板中的不良词汇所在的语句位置结构进行比较;从所述第二不良词汇表中筛除不符合所述不良词汇语句模板中的不良词汇所在的语句位置结构的词语,得到第三不良词汇表。此外,为实现上述目的,本专利技术还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有网络不良数据监控程序,所述网络不良数据监控程序被所述处理器执行时实现如下步骤:对目标文本进行分词处理,得到分词集合;将所述分词集合中的词语与预设不良词汇对照表比对,从所述分词集合中筛选出不良词语,将所述不良词语加载到第一不良词汇表,将所述分词集合中筛选后的剩余词语作为待选词语;通过词语相似度计算公式,计算出每个所述待选词语与预设不良词汇对照表中词语的相似度均值,将所述相似度均值大于预设相似度阈值的待选词语加载到所述第一不良词汇表;通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表;通过词语位置结构法,从所述第二不良词汇表中筛除不符合不良词汇语句位置结构的词语,得到第三不良词汇表并输出。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有网络不良数据监控程序,所述网络不良数据监控程序被处理器执行时,实现如上所述的网络不良数据监控方法中的任意步骤。本专利技术提出的网络不良数据监控方法、装置及计算机可读存储介质,通过对目标文本进行分词处理后将每个分词与预设的不良词汇对照表中的不良词汇进行比对,将相同的不良词语加载到第一不良词汇表,由于不良词汇对照表中的不良词汇有限,可能存本文档来自技高网...

【技术保护点】
1.一种网络不良数据监控方法,应用于电子装置,其特征在于,所述方法包括:/n对目标文本进行分词处理,得到分词集合;/n将所述分词集合中的词语与预设不良词汇对照表比对,从所述分词集合中筛选出不良词语,将所述不良词语加载到第一不良词汇表,将所述分词集合中筛选后的剩余词语作为待选词语;/n通过词语相似度计算公式,计算出每个所述待选词语与预设不良词汇对照表中词语的相似度均值,将所述相似度均值大于预设相似度阈值的待选词语加载到所述第一不良词汇表;/n通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表;/n通过词语位置结构法,从所述第二不良词汇表中筛除不符合不良词汇语句位置结构的词语,得到第三不良词汇表并输出。/n

【技术特征摘要】
1.一种网络不良数据监控方法,应用于电子装置,其特征在于,所述方法包括:
对目标文本进行分词处理,得到分词集合;
将所述分词集合中的词语与预设不良词汇对照表比对,从所述分词集合中筛选出不良词语,将所述不良词语加载到第一不良词汇表,将所述分词集合中筛选后的剩余词语作为待选词语;
通过词语相似度计算公式,计算出每个所述待选词语与预设不良词汇对照表中词语的相似度均值,将所述相似度均值大于预设相似度阈值的待选词语加载到所述第一不良词汇表;
通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表;
通过词语位置结构法,从所述第二不良词汇表中筛除不符合不良词汇语句位置结构的词语,得到第三不良词汇表并输出。


2.根据权利要求1所述的网络不良数据监控方法,其特征在于,通过词语相似度计算公式,计算出每个待选词语与预设不良词汇对照表中词语的相似度均值的步骤包括:
对每个所述待选词语进行向量化处理,得到待选词语的词向量;
将每个待选词语的词向量分别与预设的不良词的词向量集合中的不良词向量通过词语相似度计算公式进行相似度计算,得到N个相似度值,其中,所述预设的不良词的词向量集合是通过将所述预设不良词汇对照表中词语进行向量化处理得到的词向量集合;
根据N个相似度值,获得所述待选词语与预设不良词汇对照表中词语的相似度均值。


3.根据权利要求1所述的网络不良数据监控方法,其特征在于,所述词语相似度计算公式为:



其中,W1为待选词语的词向量,W2为预设的不良词的词向量集合中任一词向量,n为词向量维度,W1i为W1在i个维度下W1的值,W2i为W2在i个维度下W2的值。


4.根据权利要求1所述的网络不良数据监控方法,其特征在于,通过情感分析算法,从所述第一不良词汇表中筛除不满足预设不良词情感趋向规则的词语,得到第二不良词汇表的步骤包括:
对所述第一不良词汇表中的词语进行向量化处理,得到待计算词向量;
通过词共现频率计算公式分别计算出所述待计算词向量与预构建文明词汇库中词向量的词共现频率和所述待计算词向量与预构建不文明词汇库中词向量的词共现频率,作为待用词共现频率;
根据所述待用词共现频率,通过情感分析计算公式计算出所述第一不良词汇表中各词语的情感倾向强度值;
将所述第一不良词汇表中各词语的情感倾向强度值与预设情感倾向强度阈值规则比对,根据所述情感倾向强度阈值规则筛除所述第一不良词汇表中不满足预设不良词情感趋向规则的词语,得到第二不良词汇表。


5.根据权利要求4所述的网络不良数据监控方法,其特征在于,所述词共现频率计算公式为:

【专利技术属性】
技术研发人员:张国辉钱柏丞
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1