网络有害信息关键词提取方法和有害关键词库构建方法技术

技术编号：34255675 阅读：22 留言：0更新日期：2022-07-24 12:37

本发明专利技术公开了一种网络有害信息关键词提取方法和有害关键词库构建方法，前者包括：从互联网上获取初始文本数据信息；将其以分词为最小单位分级划分，对每一级划分出的各单位均进行与级别对应的属性标准化描述得到判定词；利用判定词的属性，进行判定词与原始有害关键词库的匹配，确定每个判定词的有害性；利用确定的每个有害分词，在初始文本数据信息中查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。还可利用疑似有害分词导入词库方式，检验词库性能确定已判有害分词，利用其和原始有害关键词库得到更新的有害关键词库。本发明专利技术能对互联网环境中的有害信息词进行准确识别，构建关键词库过程收敛快，误判率低。误判率低。误判率低。

Keyword extraction method of network harmful information and construction method of harmful key vocabulary

全部详细技术资料下载

【技术实现步骤摘要】
网络有害信息关键词提取方法和有害关键词库构建方法

[0001]本专利技术属于数据挖掘
，具体涉及一种网络有害信息关键词提取方法和有害关键词库构建方法。

技术介绍

[0002]随着互联网技术的快速发展，我国已经全面进入信息化时代，信息的存储成本更低，传播更加便捷，使得网络信息量呈现指数增长。
[0003]丰富的信息在给我们的生活带来诸多便利的同时，也为有害信息的诞生与传播提供了渠道。而目前，我国对互联网信息的监控和对信息的分级还处于发展阶段，官方监管系统还存在诸多漏洞。面对互联网上的海量数据，普通居民尤其是缺少社会经验的未成年人，缺乏对信息的辨别能力，容易受到有害信息的影响，大量网络有害信息会荼毒居民的日常生活，影响社会的稳定性。
[0004]因此，如何准确地对网络内容中有害信息进行关键词的识别和提取，以辅助官方机构进行有害信息巡查，是一个亟待解决的问题。

技术实现思路

[0005]为了解决现有技术中存在的上述问题，本专利技术提供了一种网络有害信息关键词提取方法和有害关键词库构建方法。本专利技术要解决的技术问题通过以下技术方案实现：
[0006]第一方面，本专利技术实施例提出了一种网络有害信息关键词提取方法，包括：
[0007]从互联网上获取初始文本数据信息；
[0008]将所述初始文本数据信息以分词为最小单位进行分级划分，对每一级划分出的各单位均进行与级别对应的属性标准化描述，并将属性标准化描述后的分词作为判定词；
[0009]利用所述判定词的属性...

【技术保护点】

【技术特征摘要】
1.一种网络有害信息关键词提取方法，其特征在于，包括：从互联网上获取初始文本数据信息；将所述初始文本数据信息以分词为最小单位进行分级划分，对每一级划分出的各单位均进行与级别对应的属性标准化描述，并将属性标准化描述后的分词作为判定词；利用所述判定词的属性，进行判定词与原始有害关键词库的匹配，利用匹配结果，确定每个判定词的有害性；利用确定的每个有害分词，在所述初始文本数据信息中，查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。2.根据权利要求1所述的网络有害信息关键词提取方法，其特征在于，所述将所述初始文本数据信息以分词为最小单位进行分级划分，对每一级划分出的各单位均进行与级别对应的属性标准化描述，并将属性标准化描述后的分词作为判定词，包括：将所述初始文本数据信息划分为多个字段，并对每个字段进行标准化的字段属性描述；将每个字段划分为多个分词，并对每个分词进行标准化的分词属性描述，将分词属性描述后的分词作为判定词。3.根据权利要求2所述的网络有害信息关键词提取方法，其特征在于，所述将所述初始文本数据信息划分为多个字段，并对每个字段进行标准化的字段属性描述，包括：将所述初始文本数据信息P划分为多个字段，得到P＝{P1,P2,...,P
N
}；其中，N为大于0的自然数；针对每个字段P
i
，将其进行标准化的字段属性描述，得到P
i
＝<Pid
Pi
,Wei
Pi
,Val
Pi
,Det
Pi
>；其中，i∈[1,N]；Pid
Pi
表示字段ID编号；Wei
Pi
表示字段权重；Val
Pi
表示字段价值量，用于衡量该字段含有的有害信息数量；Det
Pi
表示字段信息内容，包括该字段的文本内容、字段长度L
Pi
和该字段细分的多个分词的属性信息。4.根据权利要求2或3所述的网络有害信息关键词提取方法，其特征在于，所述将每个字段划分为多个分词，并对每个分词进行标准化的分词属性描述，包括：将每个字段划分为多个分词，得到该字段的分词数组V＝{V1,V2,...,V
M
}；其中，M为大于0的自然数；针对所述分词数组中的每个分词V
j
，将其进行标准化的分词属性描述，得到V
j
＝<Vid
Vj
,Wei
Vj
,Val
Vj
,Det
Vj
,Rel
Vj
>；其中，j∈[1,M]；Vid
Vj
表示分词ID编号；Wei
Vj
表示分词权重；Val
Vj
表示用于衡量分词有害性的分词价值量；Det
Vj
表示分词信息内容，包括分词的文本内容和分词长度L
Vj
；Rel
Vj
表示分词关联性，含有与该分词有关联的其他分词的地址信息。5.根据权利要求4所述的网络有害信息关键词提取方法，其...

【专利技术属性】
技术研发人员：赵舰波，李帅，刘怀亮，杨斌，张善庄，
申请(专利权)人：西安知了科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人