基于布控数据挖掘实现特征提取的方法技术

技术编号:9618423 阅读:101 留言:0更新日期:2014-01-30 06:17
本发明专利技术涉及一种基于布控数据挖掘实现特征提取的方法,所述的方法包括获取即时通讯工具中的布控数据;对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。采用该种基于布控数据挖掘实现特征提取的方法,可以实现有效识别多个即时通讯帐号是否属于一个人,关联分析聊天记录数据,在海量数据中进行特征提取,方法应用简便,具有更广泛的应用范围。

The method of feature extraction control based on Data Mining

The invention relates to a method of feature extraction based on mining surveillance data, the method includes obtaining control data in instant communication tool; analyze the relationship between the time to account for different instant messaging account online time has the same IP address; password data for each instant messaging account analyzing the account the relationship between the password; behavior data of all instant messaging account to analyze the relationship between the behavior obtained account; according to various instant messaging account IP address, account password, the temporal relationship between the relationship and behavior between comprehensive analyses each instant messaging account between people relationship value. Using this method to realize feature extraction based on surveillance data mining, can be used to identify multiple instant messaging account whether it belongs to a person, association analysis chat record data for feature extraction in massive data, method is simple and has wider application range.

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及计算机数据分析领域,具体是指一种。
技术介绍
目前即时聊天工具已经成为人们生活中不可或缺的一部分,即时聊天工具已经成为人们远程沟通交流的主要手段。即时通信工具的历史记录里内含的各种数据,可以使用数据挖掘的方法进行特征提取。通过对特征提取的数据进行关联分析,可以挖掘出相关人物之间的特征关系。现有技术中针对即时聊天内容的分析主要还是以人工查看为主,不仅耗时费力而且还很容易遗漏重要相关信息,没有成熟的技术方法来解决这个问题。
技术实现思路
本专利技术的目的是克服了上述现有技术的缺点,提供了一种能够实现有效识别多个即时通讯帐号是否属于一个人、关联分析聊天记录数据、在海量数据中进行特征提取的。为了实现上述目的,本专利技术的具有如下构成:该,其主要特点是,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤:(I)获取即时通讯工具中的布控数据;(2)对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;(3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;(4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;(5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。较佳地,所述的对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤:(21)从所述的布控数据中过滤出具有相同IP地址的不同即时通讯帐号;(22)对同一 IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系。更佳地,所述的对同一 IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤:(221)对同一 IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到支持度,所述的支持度为两个即时通讯帐号都发生过登录状态在给定天数内的数据集的频繁程度值;(222)对同一 IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到重合可信度,所述的重合可信度为两个帐号同时登录的频繁程度值;(223)根据同一 IP地址的不同即时通讯账号的支持度和重合可信度分析得出帐号之间的时间关系。更佳地,所述的根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值,包括以下步骤:(51)对具有相同IP地址的不同即时通讯帐号之间的时间关系、密码关系和行为关系进行分析得出各个即时通讯帐号之间的同人关系值;(52)对具有不同IP地址的各个即时通讯帐号之间的IP地址、密码关系和行为关系进行分析得出各个即时通讯帐号之间的同人关系值。较佳地,所述的各个即时通讯帐号的行为数据包括各个即时通讯帐号的好友数据和聊天记录数据,所述的对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系,包括以下步骤:(41)对各个即时通讯帐号的好友数据进行分析得出帐号之间的好友关系;(42)对各个即时通讯帐号的聊天记录数据进行分析得出帐号之间的收发内容相似度;(43)对各个即时通讯帐号之间的好友关系和收发内容相似度进行分析得出帐号之间的行为关系。更佳地,所述的对各个即时通讯帐号的聊天记录数据进行分析得出帐号之间的收发内容相似度,包括以下步骤:(421)对各个即时通讯帐号的聊天记录数据进行文本挖掘并提取关键词;(422)对各个即时通讯帐号的聊天记录数据中关键词之间的相关度进行分析得出帐号之间的收发内容相似度。采用了该专利技术中的,可以实现通过即时通信通讯软件的登录信息和登录轨迹来判断登录的多个虚拟账户是否属于同一人员,提出STFFS (同人,时间,朋友,频率,序列)数据挖掘的人物特征提取方法,快速的在海量数据中进行特征提取,方法应用简便,具有更广泛的应用范围。【附图说明】图1为本专利技术的的流程图。【具体实施方式】为了能够更清楚地描述本专利技术的
技术实现思路
,下面结合具体实施例来进行进一步的描述。本专利技术进行分析的基础为布控数据,而布控数据即为虚拟身份在即时通讯工具中登录的如下轨迹信息项:虚拟身份ID,即即时通讯帐号;虚拟身份口令,即即时通讯帐号对应的密码;ADSL IP地址,即各个即时通讯帐号登录的IP地址;ADSL地理地址;登录时间;在线时长;登出时间; 好友列表和聊天记录,即即时通讯帐号的行为数据。本专利技术的同人登录判断问题定义及数据格式如下:从布控数据上来看,许多被布控人员人会申请多个即时通讯工具(InstantMessaging,頂)账号来方便与不同的人员进行通信。因此识别出多个頂账号是否属于同一个人员可以有效关联聊天记录内容,协同定位布控人员,帮助分析布控人员行为。本实施例中目前收集到布控数据有:頂登录日志、IM聊天记录。IM登录日志格式:本文档来自技高网
...

【技术保护点】
一种基于布控数据挖掘实现特征提取的方法,其特征在于,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤:(1)获取即时通讯工具中的布控数据;(2)对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;(3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;(4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;(5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。

【技术特征摘要】
1.一种基于布控数据挖掘实现特征提取的方法,其特征在于,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤: (1)获取即时通讯工具中的布控数据; (2)对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系; (3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系; (4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系; (5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。2.根据权利要求1所述的基于布控数据挖掘实现特征提取的方法,其特征在于,所述的对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤: (21)从所述的布控数据中过滤出具有相同IP地址的不同即时通讯帐号; (22)对同一IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系。3.根据权利要求2所述的基于布控数据挖掘实现特征提取的方法,其特征在于,所述的对同一 IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤: (221)对同一IP地址 具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到支持度,所述的支持度为两个即时通讯帐号都发生过登录状态在给定天数内的数据集的频繁程度值; (222)对同一IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到重合可信度,所述的重合可信度为两个帐号同时...

【专利技术属性】
技术研发人员:吴松洋周治平王旭鹏张熙哲熊雄刘占斌
申请(专利权)人:公安部第三研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1