一种基于分聚类抽取与词向量模型的暗语识别方法技术

技术编号：39319710 阅读：9 留言：0更新日期：2023-11-12 16:01

本发明专利技术涉及暗语识别领域，具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法，包括：S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据；S2、根据所述待识别初始文本数据建立分聚类抽取模型；S3、根据所述分聚类抽取模型建立暗语识别词向量模型；S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果，用半监督学习的方式，解决数据人工标注的工作，大大减少人工标注成本，有效提升面向社交言论，针对其言论篇幅短、用于不规范、使用暗语刻意规避平台识别等特征的场景研判准确度问题。的场景研判准确度问题。的场景研判准确度问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分聚类抽取与词向量模型的暗语识别方法

[0001]本专利技术涉及暗语识别领域，具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法。

技术介绍

[0002]随着互联网的普及和发展，网络安全问题日益突出。一些不法分子通过使用特定词汇、短语、语法结构、隐喻、暗示等方式（以下统称“暗语”）来隐藏真正的意图或含义，给社会安全以及人们的生活不小的影响。

技术实现思路

[0003]针对现有技术的不足，本专利技术提供了一种基于分聚类抽取与词向量模型的暗语识别方法，通过建立多级模型快速准确的得到暗语识别结果。
[0004]为实现上述目的，本专利技术提供了一种基于分聚类抽取与词向量模型的暗语识别方法，包括：S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据；S2、根据所述待识别初始文本数据建立分聚类抽取模型；S3、根据所述分聚类抽取模型建立暗语识别词向量模型；S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。
[0005]优选的，所述获取待识别文本数据进行预处理筛选得到待识别初始文本数据包括：获取待识别文本数据；利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据；利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。
[0006]进一步的，根据所述待识别初始文本数据建立分聚类抽取模型包括：S2
‑
1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型；S2
‑
2、利用所述待...

【技术保护点】

【技术特征摘要】
1.一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，包括：S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据；S2、根据所述待识别初始文本数据建立分聚类抽取模型；S3、根据所述分聚类抽取模型建立暗语识别词向量模型；S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。2.如权利要求1所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，所述获取待识别文本数据进行预处理筛选得到待识别初始文本数据包括：获取待识别文本数据；利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据；利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。3.如权利要求2所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，根据所述待识别初始文本数据建立分聚类抽取模型包括：S2
‑
1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型；S2
‑
2、利用所述待识别初始文本数据建立基础聚类抽取模型；S2
‑
3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型。4.如权利要求3所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型包括：利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义
‑
语句映射集合；利用所述待识别初始文本数据与语义
‑
语句映射集合作为训练集；利用所述训练集基于决策树进行训练得到基础分类抽取模型。5.如权利要求3所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，利用所述待识别初始文本数据建立基础聚类抽取模型包括：S2
‑2‑
1、获取待识别初始文本数据对应历史待识别文本重点语义数据与历史待识别文本数据；S2
‑2‑
2、利用所述待识别初始文本数据的待识别文本重点语义数据分别与对应历史待识别文本重点语义数据建立重点语义关联映射集合；S2
‑2‑
3、利用所述待识别初始文本数据的待识别文本数据与历史待识别文本数据建立综合文本关联映射；S2
‑2‑
4、利用所述重点语义关联映射集合作为第一训练集，所述综合文本关联映射建立非正式验证集；S2
‑2‑
5、利用所述第一训练集基于聚类算法进行训练得到初始聚类抽取模型；S2
‑2‑
6、利用所述非正式验证集代入初始聚类抽取模型得到初始聚类抽取结果；S2
‑2‑
7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应，若是，则输出初始聚类抽取模型作为基础聚类抽取模型，否则，获返回S2
‑2‑
1。6.如权利要求1所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，根据所述分聚类抽取模型建立暗语识别词向量模型包括：
利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据；利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量；根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。7.如权利要求6所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征...

【专利技术属性】
技术研发人员：赵志庆，侯玉柱，董席峰，张雨铭威，张昊，
申请(专利权)人：戎行技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人