一种基于k-means文本聚类的诈骗话题分析方法和系统技术方案

技术编号:25637844 阅读:18 留言:0更新日期:2020-09-15 21:30
本发明专利技术属于日志文本的诈骗话题聚类领域,特别涉及一种基于k‑means文本聚类的诈骗话题分析方法和系统。该方法包括:收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;使用k‑means对所述多个特征模型进行学习,建立诈骗文本预警模型;将对新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。本发明专利技术利用k‑means技术对日志文本进行自动识别,有利于降低误判率,提高日志文本的识别准确率,节省时间。

【技术实现步骤摘要】
一种基于k-means文本聚类的诈骗话题分析方法和系统
本专利技术属于日志文本的诈骗话题聚类领域,特别涉及一种基于k-means文本聚类的诈骗话题分析方法和系统。
技术介绍
目前日志文本诈骗发现主要依靠关键词和分类过滤技术,这些分析的日志文本都是已知的剧本。目前诈骗团伙中,有专门成员负责编写诈骗剧本,紧跟社会热点,针对不同群体,量身定做、精心设计、编制骗术,其犯罪类型多,手段变化快,针对新型的诈骗剧本,传统的识别方法越来越难发现。
技术实现思路
针对上述问题,本专利技术设计实现了一种基于k-means文本聚类的诈骗话题分析方法,包括:收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;将对新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。进一步地,所述使用诈骗去留字典对所述文本进行预处理,生成多个特征模型包括:对文本进行切词,生成切词文本;对所述切词文本去除停用词,生成去除停用词文本;使用诈骗去留字典处理去除停用词文本,构建词袋空间并计算所述日志文本在所述词袋空间中的向量;使用TF-IDF构建词权重,生成多个特征模型。进一步地,所述诈骗去留字典包括诈骗去字典和诈骗留字典;所述使用诈骗去留字典处理包括:使用诈骗去字典对文本进行处理;和/或使用诈骗留字典对文本进行处理。进一步地,所述使用诈骗去字典对文本进行处理包括:依据诈骗去字典;查找文本中去词语;把文本中的去词语去除。进一步地,所述使用诈骗留字典对文本进行处理包括:依据诈骗留字典;查找文本中留词语;在文本中的留词语做了权重设置。进一步地,所述方法还包括:诈骗文本预警模型自动化更新;所述自动化更新包括:使用所述新文本预警模型,对下一个文本进行判断。本专利技术还提供一种基于k-means文本聚类的诈骗话题分析系统,包括:收集模块,用于收集日志文本;预处理模块,用于使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;学习模块,用于使用k-means对所述多个特征模型进行学习;建立模块,用于建立诈骗文本预警模型;重建立模块,用于重新建立新文本预警模型;比较模块,用于使用新文本预警模型与所述诈骗文本预警模型比较;判断模块,用于对新的文本进行判断。进一步地,所述预处理模块包括:切词组件,用于对文本进行切词,生成切词文本;去除组件,用于去除停用词,生成去除停用词文本;处理组件,用于使用诈骗去留字典处理去除停用词文本;构建组件,用于构建词袋空间;计算组件,用于计算日志文本在所述词袋空间中的向量;权重组件,用于使用TF-IDF构建词权重。进一步地,所述诈骗去留字典包括诈骗去字典和诈骗留字典;所述处理组件包括:诈骗去字典单元,用于使用诈骗去字典对文本进行处理;诈骗留字典单元,用于使用诈骗留字典对文本进行处理。进一步地,所述使用诈骗去字典对文本进行处理包括:依据诈骗去字典,查找文本中去词语,把文本中的去词语去除。进一步地,所述使用诈骗留字典对文本进行处理包括:依据诈骗留字典,查找文本中留词语,在文本中的留词语做了权重设置。进一步地,所述系统还包括:自学习模块,用于对诈骗文本预警模型自动化更新;所述自动化更新包括:使用所述新文本预警模型,对下一个文本进行判断。本专利技术的利用k-means技术对日志文本进行自动识别,有利于降低误判率,提高日志文本的识别准确率,节省时间。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本专利技术实施例的一种基于k-means文本聚类的诈骗话题分析方法流程图;图2示出了根据本专利技术实施例的一种基于k-means文本聚类的诈骗话题分析系统结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术可以对日志文本进行判断。本专利技术公开了一种基于k-means文本聚类的诈骗话题分析方法,所述方法可以采用但不限于以下流程。示例性的,如图1所示,所述方法包括:收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断;诈骗文本预警模型自动化更新。具体的,收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型。收集日志文本,对所述文本进行切词、生成切词文本;对所述切词文本去除停用词,生成去除停用词文本;使用诈骗去留字典处理去除停用词文本,构建词袋空间,使用TF-IDF构建词权重,生成多个特征模型。具体的,收集日志文本,对所述文本进行切词。通过各种方式收集日志文本。示例性的,公安系统破获相关诈骗集团,得到诈骗集团所写的诈骗剧本,得到公安系统或相关部门授权后获得所述诈骗剧本,对所述诈骗剧本通过大数据分析+人工复标,最终生成日志文本。具体的,切词指的是将一个汉字序列切分成一个一个单独的词。切词是文本挖掘的基础,对于输入的一段中文,成功的进行切词,可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。示例性的,可以使用但不限以下方法进行切词:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。示例性的,可以使用但不限以下工具进行切词:SCWS、ICTCLAS、HTTPCWS、CC-CEDICT。具体的,如果文本A包括文本B和文本C,那么对于文本本文档来自技高网...

【技术保护点】
1.一种基于k-means文本聚类的诈骗话题分析方法,其特征在于,/n所述方法包括:/n收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;/n使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;/n将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。/n

【技术特征摘要】
1.一种基于k-means文本聚类的诈骗话题分析方法,其特征在于,
所述方法包括:
收集日志文本,使用诈骗去留字典对所述文本进行预处理,生成多个特征模型;
使用k-means对所述多个特征模型进行学习,建立诈骗文本预警模型;
将新的文本加入到所述日志文本中重新建立新文本预警模型;使用新文本预警模型与所述诈骗文本预警模型比较,对所述新的文本进行判断。


2.根据权利要求1所述的分析方法,其特征在于,
所述使用诈骗去留字典对所述文本进行预处理,生成多个特征模型包括:
对文本进行切词,生成切词文本;
对所述切词文本去除停用词,生成去除停用词文本;
使用诈骗去留字典处理去除停用词文本,构建词袋空间并计算所述日志文本在所述词袋空间中的向量;
使用TF-IDF构建词权重,生成多个特征模型。


3.根据权利要求2所述的分析方法,其特征在于,
所述诈骗去留字典包括诈骗去字典和诈骗留字典;
所述使用诈骗去留字典处理包括:
使用诈骗去字典对文本进行处理;
和/或使用诈骗留字典对文本进行处理。


4.根据权利要求3所述的分析方法,其特征在于,
所述使用诈骗去字典对文本进行处理包括:
依据诈骗去字典;
查找文本中去词语;
把文本中的去词语去除;所述使用诈骗留字典对文本进行处理包括:
依据诈骗留字典;
查找文本中留词语;
在文本中的留词语做了权重设置。


5.根据权利要求1所述的分析方法,其特征在于,
所述方法还包括:
诈骗文本预警模型自动化更新;
所述自动化更新包括:
使用所述新文本预警模型,对下一个文本进行判断。


6.一种基于k-means文本聚类的诈骗话题分析系统,其...

【专利技术属性】
技术研发人员:王中华夏光升刘志会许高尚
申请(专利权)人:国家计算机网络与信息安全管理中心天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1