The invention relates to a method of feature extraction based on mining surveillance data, the method includes obtaining control data in instant communication tool; analyze the relationship between the time to account for different instant messaging account online time has the same IP address; password data for each instant messaging account analyzing the account the relationship between the password; behavior data of all instant messaging account to analyze the relationship between the behavior obtained account; according to various instant messaging account IP address, account password, the temporal relationship between the relationship and behavior between comprehensive analyses each instant messaging account between people relationship value. Using this method to realize feature extraction based on surveillance data mining, can be used to identify multiple instant messaging account whether it belongs to a person, association analysis chat record data for feature extraction in massive data, method is simple and has wider application range.
【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及计算机数据分析领域,具体是指一种。
技术介绍
目前即时聊天工具已经成为人们生活中不可或缺的一部分,即时聊天工具已经成为人们远程沟通交流的主要手段。即时通信工具的历史记录里内含的各种数据,可以使用数据挖掘的方法进行特征提取。通过对特征提取的数据进行关联分析,可以挖掘出相关人物之间的特征关系。现有技术中针对即时聊天内容的分析主要还是以人工查看为主,不仅耗时费力而且还很容易遗漏重要相关信息,没有成熟的技术方法来解决这个问题。
技术实现思路
本专利技术的目的是克服了上述现有技术的缺点,提供了一种能够实现有效识别多个即时通讯帐号是否属于一个人、关联分析聊天记录数据、在海量数据中进行特征提取的。为了实现上述目的,本专利技术的具有如下构成:该,其主要特点是,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤:(I)获取即时通讯工具中的布控数据;(2)对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;(3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;(4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;(5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。较佳地,所述的对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤:(21)从所述的布控数据中过滤出具有相同IP地址的不同即时通讯帐号;(22)对 ...
【技术保护点】
一种基于布控数据挖掘实现特征提取的方法,其特征在于,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤:(1)获取即时通讯工具中的布控数据;(2)对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系;(3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系;(4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系;(5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。
【技术特征摘要】
1.一种基于布控数据挖掘实现特征提取的方法,其特征在于,所述的布控数据包括即时通讯帐号以及各个即时通讯帐号的IP地址、在线时间、密码数据和行为数据,所述的方法包括以下步骤: (1)获取即时通讯工具中的布控数据; (2)对具有同一IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系; (3)对各个即时通讯帐号的密码数据进行分析得到帐号之间的密码关系; (4)对各个即时通讯帐号的行为数据进行分析得到帐号之间的行为关系; (5)根据各个即时通讯帐号的IP地址、帐号之间的时间关系、密码关系和行为关系进行综合分析得出各个即时通讯帐号之间的同人关系值。2.根据权利要求1所述的基于布控数据挖掘实现特征提取的方法,其特征在于,所述的对具有同一 IP地址的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤: (21)从所述的布控数据中过滤出具有相同IP地址的不同即时通讯帐号; (22)对同一IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系。3.根据权利要求2所述的基于布控数据挖掘实现特征提取的方法,其特征在于,所述的对同一 IP地址具有的不同即时通讯帐号的在线时间进行分析得到帐号之间的时间关系,包括以下步骤: (221)对同一IP地址 具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到支持度,所述的支持度为两个即时通讯帐号都发生过登录状态在给定天数内的数据集的频繁程度值; (222)对同一IP地址具有的任两个即时通讯帐号的登录时间和退出时间区间的重合度分析得到重合可信度,所述的重合可信度为两个帐号同时...
【专利技术属性】
技术研发人员:吴松洋,周治平,王旭鹏,张熙哲,熊雄,刘占斌,
申请(专利权)人:公安部第三研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。