网络有害信息关键词提取方法和有害关键词库构建方法技术

技术编号:34255675 阅读:22 留言:0更新日期:2022-07-24 12:37
本发明专利技术公开了一种网络有害信息关键词提取方法和有害关键词库构建方法,前者包括:从互联网上获取初始文本数据信息;将其以分词为最小单位分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述得到判定词;利用判定词的属性,进行判定词与原始有害关键词库的匹配,确定每个判定词的有害性;利用确定的每个有害分词,在初始文本数据信息中查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。还可利用疑似有害分词导入词库方式,检验词库性能确定已判有害分词,利用其和原始有害关键词库得到更新的有害关键词库。本发明专利技术能对互联网环境中的有害信息词进行准确识别,构建关键词库过程收敛快,误判率低。误判率低。误判率低。

Keyword extraction method of network harmful information and construction method of harmful key vocabulary

【技术实现步骤摘要】
网络有害信息关键词提取方法和有害关键词库构建方法


[0001]本专利技术属于数据挖掘
,具体涉及一种网络有害信息关键词提取方法和有害关键词库构建方法。

技术介绍

[0002]随着互联网技术的快速发展,我国已经全面进入信息化时代,信息的存储成本更低,传播更加便捷,使得网络信息量呈现指数增长。
[0003]丰富的信息在给我们的生活带来诸多便利的同时,也为有害信息的诞生与传播提供了渠道。而目前,我国对互联网信息的监控和对信息的分级还处于发展阶段,官方监管系统还存在诸多漏洞。面对互联网上的海量数据,普通居民尤其是缺少社会经验的未成年人,缺乏对信息的辨别能力,容易受到有害信息的影响,大量网络有害信息会荼毒居民的日常生活,影响社会的稳定性。
[0004]因此,如何准确地对网络内容中有害信息进行关键词的识别和提取,以辅助官方机构进行有害信息巡查,是一个亟待解决的问题。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供了一种网络有害信息关键词提取方法和有害关键词库构建方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0006]第一方面,本专利技术实施例提出了一种网络有害信息关键词提取方法,包括:
[0007]从互联网上获取初始文本数据信息;
[0008]将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词;
[0009]利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性;
[0010]利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。
[0011]在本专利技术的一个实施例中,所述将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词,包括:
[0012]将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述;
[0013]将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,将分词属性描述后的分词作为判定词。
[0014]在本专利技术的一个实施例中,所述将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述,包括:
[0015]将所述初始文本数据信息P划分为多个字段,得到P={P1,P2,...,P
N
};其中, N为
大于0的自然数;
[0016]针对每个字段P
i
,将其进行标准化的字段属性描述,得到 P
i
=<Pid
Pi
,Wei
Pi
,Val
Pi
,Det
Pi
>;
[0017]其中,i∈[1,N];Pid
Pi
表示字段ID编号;Wei
Pi
表示字段权重;Val
Pi
表示字段价值量,用于衡量该字段含有的有害信息数量;Det
Pi
表示字段信息内容,包括该字段的文本内容、字段长度L
Pi
和该字段细分的多个分词的属性信息。
[0018]在本专利技术的一个实施例中,所述将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,包括:
[0019]将每个字段划分为多个分词,得到该字段的分词数组V={V1,V2,...,V
M
};其中,M为大于0的自然数;
[0020]针对所述分词数组中的每个分词V
j
,将其进行标准化的分词属性描述,得到V
j
=<Vid
Vj
,Wei
Vj
,Val
Vj
,Det
Vj
,Rel
Vj
>;
[0021]其中,j∈[1,M];Vid
Vj
表示分词ID编号;Wei
Vj
表示分词权重;Val
Vj
表示用于衡量分词有害性的分词价值量;Det
Vj
表示分词信息内容,包括分词的文本内容和分词长度L
Vj
;Rel
Vj
表示分词关联性,含有与该分词有关联的其他分词的地址信息。
[0022]在本专利技术的一个实施例中,所述利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性,包括:
[0023]针对每个判定词,基于该判定词的分词信息内容,在所述原始有害关键词库中查找是否有包含该判定词的有害信息内容;若有,表示匹配结果为成功,则确定该判定词为有害分词,并将该判定词的分词价值量赋值为1;否无,表示匹配结果为未成功,则确定该判定词为无害分词,并将该判定词的分词价值量赋值为0。
[0024]在本专利技术的一个实施例中,所述针对每个判定词,基于该判定词的分词信息内容,在所述原始有害关键词库中查找是否有包含该判定词的有害信息内容,包括:
[0025]针对每个判定词,判断在所述原始有害关键词库中是否有与该判定词的文本内容相同的关键词,若有与该判定词的文本内容相同的关键词,则确定查找到包含该判定词的有害信息内容;
[0026]若无与该判定词的文本内容相同的关键词,利用该判定词的分词关联性,确定由该判定词和与该判定词有关联的其他分词共同构成的各关联词组,判断在所述原始有害关键词库中是否有与至少一个所述关联词组的文本内容相同的关键词组,若有,则确定查找到包含该判定词的有害信息内容。
[0027]在本专利技术的一个实施例中,所述利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词,包括:
[0028]针对每个有害分词,在该有害分词出现的每个字段中,分别确定该有害分词的所有关联词组;
[0029]对该有害分词的每个关联词组,统计该关联词组在该有害分词出现的所有字段中的出现次数,并将出现次数排名在前的预设数量个关联词组中,除去该有害分词之外的其余分词提取出作为该有害分词对应的疑似有害分词。
[0030]在本专利技术的一个实施例中,所述确定每个判定词的有害性之后,所述方法还包括:
[0031]利用每个判定词的有害性判定结果,对所述初始文本数据信息不同层级中有害信息的丰度进行评估。
[0032]在本专利技术的一个实施例中,所述利用每个判定词的有害性判定结果,对所述初始文本数据信息不同层级中有害信息的丰度进行评估,包括:
[0033]针对每个字段,利用该字段内各判定词被赋值的分词价值量、分词权重和分词关联性计算该字段的字段价值量,以利用该字段的字段价值量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络有害信息关键词提取方法,其特征在于,包括:从互联网上获取初始文本数据信息;将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词;利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性;利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。2.根据权利要求1所述的网络有害信息关键词提取方法,其特征在于,所述将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词,包括:将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述;将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,将分词属性描述后的分词作为判定词。3.根据权利要求2所述的网络有害信息关键词提取方法,其特征在于,所述将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述,包括:将所述初始文本数据信息P划分为多个字段,得到P={P1,P2,...,P
N
};其中,N为大于0的自然数;针对每个字段P
i
,将其进行标准化的字段属性描述,得到P
i
=<Pid
Pi
,Wei
Pi
,Val
Pi
,Det
Pi
>;其中,i∈[1,N];Pid
Pi
表示字段ID编号;Wei
Pi
表示字段权重;Val
Pi
表示字段价值量,用于衡量该字段含有的有害信息数量;Det
Pi
表示字段信息内容,包括该字段的文本内容、字段长度L
Pi
和该字段细分的多个分词的属性信息。4.根据权利要求2或3所述的网络有害信息关键词提取方法,其特征在于,所述将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,包括:将每个字段划分为多个分词,得到该字段的分词数组V={V1,V2,...,V
M
};其中,M为大于0的自然数;针对所述分词数组中的每个分词V
j
,将其进行标准化的分词属性描述,得到V
j
=<Vid
Vj
,Wei
Vj
,Val
Vj
,Det
Vj
,Rel
Vj
>;其中,j∈[1,M];Vid
Vj
表示分词ID编号;Wei
Vj
表示分词权重;Val
Vj
表示用于衡量分词有害性的分词价值量;Det
Vj
表示分词信息内容,包括分词的文本内容和分词长度L
Vj
;Rel
Vj
表示分词关联性,含有与该分词有关联的其他分词的地址信息。5.根据权利要求4所述的网络有害信息关键词提取方法,其...

【专利技术属性】
技术研发人员:赵舰波李帅刘怀亮杨斌张善庄
申请(专利权)人:西安知了科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1