一种基于文件自动标记信息的社会关系挖掘分析方法技术

技术编号:16837599 阅读:68 留言:0更新日期:2017-12-19 20:02
本发明专利技术公开了一种基于文件自动标记信息的社会关系挖掘分析方法,所述方法包括:从被分析对象的载体中收集具有标记信息的文件;从收集的文件中解析出标记信息并存储到数据库中;从数据中选择能够作为社交关联分析的关联字段;建立黑名单库,基于黑名单库进行过滤;从标记信息将选择出的关联字段的值读取出来,并两两关联;基于关联后的文档利用辅助字段的相似度信息,计算关联的可靠性信息;将关联信息输入可视化控件生成社会关系图;通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。

An analysis method of social relation mining based on automatic file marking information

The invention discloses a method for automatic file marker information mining and analysis of social relations based on the analysis of the collected information is tagged with the file object carrier; from parsing out the tag information and stored in the database to collect the file; select the associated field can be used as a social relation analysis from the data; establish a blacklist database, filter the list based on related fields from the marker information; the selected value is read out, and 22 Association; the document by using the auxiliary field correlation similarity information based on information reliability calculation of correlation; related information input visual control to generate social graph; through the method of application in can significantly improve the development efficiency and the effect of clues and evidence collection process.

【技术实现步骤摘要】
一种基于文件自动标记信息的社会关系挖掘分析方法
本专利技术涉及取证分析研究领域,具体地,涉及一种基于文件自动标记信息的社会关系挖掘分析方法。
技术介绍
传统的取证分析中的社会关系挖掘分析方法往往是依赖于互联网产品,如基于电子邮件的社会关系挖掘、基于社交软件的社会关系挖掘。现有的电子取证分析中的社会关系挖掘分析方法普遍需要互联网。如基予电子邮件的社会关系挖掘需要搜集目标对象的来往邮件来进行社会关系关联;基予社交软件如QQ微信的社会关系挖掘需要目标对象的账号密码。此类分析方法有2个问题:1、严重依赖互联网,无法对不联网的计算机进行有效分析。2、无论是电子邮件还是QQ微信都需要目标对象的账号密码信息,这在实际取证过程中难度很大,往往无法有效开展。
技术实现思路
本专利技术提供了一种基于文件自动标记信息的社会关系挖掘分析方法,解决了现有的分析存在依赖互联网且分析难度大的技术问题,通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。传统的方法针对于文件的取证分析方法一般只注重于文件的时间属性和内容上面的分析,往往忽略了文件的自动标记属性产生的巨大价值。为实现上述专利技术目的,本申请提供了一种基于文件自动标记信息的社会关系挖掘分析方法,所述方法包括:从被分析对象的载体中收集具有标记信息的文件;从收集的文件中解析出标记信息并存储到数据库中;从数据中选择能够作为社交关联分析的关联字段;建立黑名单库,基于黑名单库进行过滤;从标记信息将选择出的关联字段的值读取出来,并两两关联;基于关联后的文档利用辅助字段的相似度信息,计算关联的可靠性信息;将关联信息输入可视化控件生成社会关系图。其中,本方法的原理为:在计算机、手机等设备上创建或编辑诸如办公文档、音频文件、图片文件、等等一系列文件时,相应的软件会根据软件自身与操作系统情况自动加入标记信息。自动加入的标记信息种类多达上百种。因为这些标记字段往往为正文内容不可见的,所以常常被人忽略。又由于这些标记信息具有传递性,即标记信息会跟随文件的传递而进行传递。当上述具有自动标记信息的文件通过U盘、光盘、网络传输等方式传递到目的端时,结合传输源端的标记信息和传输目的端的标记信息进行关联分析时,有极大的可能分析出传输源端和传输目的端的信息与关系。因此利用文件自动标记信息来作为分析文件所有的个人或公司的社会关系网络是可行的。本申请中的的系统泛指计算机操作系统。如windows操作系统中会自带很多帮助文档和默认模板文档。这些文档所带的标记信息均是跟微软相关的。因此这类文档的标记信息对分析目标对象的社会关系来说是无价值的。所述基于黑名单库进行过滤具体包括:将收集到的标记信息与存在于黑名单库中的标记信息进行比对,如果比对结果显示存在于黑名单库中,则进行丢弃。可用作构建社会关系网络的标记字段(下文称关联字段)包括但不限于:创建者信息、最后修改者信息、管理者信息、公司信息、设备信息,软件信息。可用于辅助计算关联可靠性的标记字段(下文称辅助字段)包括但不限于:编码类型信息、语言信息、校验信息、创建时间信息、修改时间信息、版本信息、模板信息、关键字信息、生成信息。进一步的,具有自动标记信息的文件包括但不限于:word文档、excel文档、演示文稿文档、project文档、visio文档、PDF文档。进一步的,文件自带标记信息,根据不同文件类型的各自内部结构进行解析;标记信息由键值对组成。进一步的,所述方法还包括:从数据库中把携带标记信息的字段读取到分析平台,在分析平台中选择能够作为社交关联分析的字段。进一步的,辅助字段为可用于辅助计算关联可靠性的标记字段。进一步的,辅助字段的相似度与关联的可靠性成正比。进一步的,所述建立黑名单库,黑名单库可通过人工编辑添加和自动统计分析添加。从标记信息将选择出的关联字段的值读取出来,并两两关联,具体包括:文档a的关联字段有值:A、B、C,则A与B组成边,B与C组成边,A与C组成边,并保存到关联信息{…,(A,B),(B,C),(A,C),…},若两个及以上的文档的关联字段的值相同,则保留关联信息,否则若没有和其它文档的关联字段的值相同,则删除该文件档的关联信息,文档a则删除关联信息{(A,B),(B,C),(A,C)}。般文档带有多个可关联的标记字段,如果文档A中的其中一个可关联标记字段与文档B的其中一个可关联字段有联系(如:这两个标记字段内容一致,那么这两个字段可以进行关联)则可将这两个字段进行关联。参考详见图2、图3。本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:利用具有自动标记属性的文档对目标进行社会关系挖掘分析,通过多种实施可行度较高的手段收集到目标的相关文档之后,可以有效分析出目标的社会关系情况并形成关系图,为后续动作提供参考,解决了现有的分析存在依赖互联网且分析难度大的技术问题,通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定;图1是本申请中本方法的原理示意图;图2是计算机上获取到4个文档示意图;图3是本申请中人物文档关联示意图。具体实施方式本专利技术提供了一种基于文件自动标记信息的社会关系挖掘分析方法,解决了现有的分析存在依赖互联网且分析难度大的技术问题,通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。步骤1)通过从被分析对象的设备(如计算机、手机)里以遍历所有文件的方式提取,或从目标官方网站上下载,或使用其它任意手段(如手动进行文件拷贝)收集所有的具有自动标记信息的文件。这些文档包含主要如下类型:Office系列文档的word文档、excel文档、演示文稿文档、project文档、visio文档,PDF文档。步骤2)从上述文件中解析所有标记信息到数据库中。文件自带这些标记信息,根据不同文件类型的各自内部结构进行解析。必须包括;标记信息一般由键(又称作字段)值对组成,如:作者(键):张三(值),所以标记字段是标记信息中的键(字段)的部分;步骤3)从数据库把标记信息的字段读取到分析平台;步骤4)选择所有可作为社交关联分析的字段(关联字段),常见的关联字段默认选中步骤5)收集黑名单库,将系统自带的文档以及其它一些无价值文档中的关联字段加入到黑名单库,在分析时进行过滤。(例如系统文档的“创建者”为微软公司。类似这样的数据都收集到黑名单中进行过滤。)步骤6)将数据库中的所有关联字段的值读取出来,如果两个及以上的文档的关联字段的值有相同则进行关联。原理示意图如图1所示。1)张三编写了“文档1”,并通过U盘拷贝给李四,此时文档自动标记作者张三的信息(红色部分)。2)李四将“文档1”修改完后发给张三,此时文档自动标记修改者李四的信息。李四编写了“文档3”,通过互联网发本文档来自技高网...
一种基于文件自动标记信息的社会关系挖掘分析方法

【技术保护点】
一种基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,所述方法包括:从被分析对象的载体中收集具有标记信息的文件;从收集的文件中解析出标记信息并存储到数据库中;从数据中选择能够作为社交关联分析的关联字段;建立黑名单库,基于黑名单库进行过滤;从标记信息将选择出的关联字段的值读取出来,并两两关联;基于关联后的文档利用辅助字段的相似度信息,计算关联的可靠性信息;将关联信息输入可视化控件生成社会关系图。

【技术特征摘要】
1.一种基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,所述方法包括:从被分析对象的载体中收集具有标记信息的文件;从收集的文件中解析出标记信息并存储到数据库中;从数据中选择能够作为社交关联分析的关联字段;建立黑名单库,基于黑名单库进行过滤;从标记信息将选择出的关联字段的值读取出来,并两两关联;基于关联后的文档利用辅助字段的相似度信息,计算关联的可靠性信息;将关联信息输入可视化控件生成社会关系图。2.根据权利要求1所述的基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,所述基于黑名单库进行过滤具体包括:将收集到的标记信息与存在于黑名单库中的标记信息进行比对,如果比对结果显示存在于黑名单库中,则进行丢弃。3.根据权利要求1所述的基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,具有自动标记信息的文件包括但不限于:word文档、excel文档、演示文稿文档、project文档、visio文档、PDF文档。4.根据权利要求1所述的基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,文件自带标记信息,根据不同文件类型的各自内部结构进行解析;标记信息由键值对组成。5.根据权利要求1所述的基于文件自动标记信息的社会关系挖掘分析方法,其特征在于,所述方法还包括:从数据库中把携带标记信息的字段读取到分析平台,在分析平台中选择能够...

【专利技术属性】
技术研发人员:陈虹宇罗阳
申请(专利权)人:四川神琥科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1