量化式数据分析方法以及量化式数据分析装置制造方法及图纸

技术编号:8765532 阅读:180 留言:0更新日期:2013-06-07 22:45
本发明专利技术揭露一种量化式数据分析方法,应用于一计算机系统当中,以判断一待测文件是否具敏感性,量化式数据分析方法是取得计算机系统当中的样本数据,对样本数据的内容进行分段,以取得至少一原始数据段落;对原始数据段落进行划分,以取得原始文句;自原始文句当中撷取出原始文句属性,再依据原始文句属性,建立训练特征向量。

【技术实现步骤摘要】
量化式数据分析方法以及量化式数据分析装置
本专利技术是有关于一种量化式数据分析方法,且特别是有关于一种与信息安全相关的数据分析方法。
技术介绍
近年来,一些研究机构指出,全球企业因资料外泄所造成的损失,达1兆美元以上,一些研究报告也指出,2011年的资料外泄个案是2010年的五倍多,而企业安全的十大威胁中,“员工不经意中而泄漏重要信息”和“资料被内部成员窃取”等威胁分别位于第二和第五名,由内部成员外泄机密的事件逐年增加,已与外部入侵窃取机密的比例相当。为了保护企业内部的重要数据,许多企业均采用信息安全(informationsecurity)管理系统来监控企业内部的各种信息,避免重要数据外流而造成企业的重大损失。一般而言,这些企业的信息安全政策会对计算机的文档写出权限、光盘烧录权限、文档打印权限、软/硬件使用权限、网页浏览权限、网络传输权限及记录查询...等做出设定与纪录,以对企业内部的计算机信息进行控管。然而,目前企业内部所采用的信息安全控管方法,大多无法十分准确有效地找出需要保密的文件,极有可能将一般员工的私人文件也当成机敏文件处理,造成员工的困扰;或是需要庞大的资源来对企业内部的文件进行管控,消耗了庞大的人力与物力成本。
技术实现思路
因此,本专利技术的一方面是在提供一种量化式数据分析方法,能够有效且准确地对企业内部的文件或是应用程序进行管控,降低人力与物力成本。依据本专利技术一实施例,量化式数据分析方法应用于一计算机系统当中,以判断一待测文件是否具敏感性,此量化式数据分析方法是取得计算机系统当中的一样本数据;对样本数据的内容进行分段,以取得至少一原始数据段落;对原始数据段落进行划分,以取得多个原始文句;自原始文句当中撷取出多个原始文句属性;以及依据原始文句属性,建立多个训练特征向量。本专利技术的另一方面是在提供一种量化式数据分析装置,能够有效且准确地对企业内部的文件或是应用程序进行管控,降低人力与物力成本。依据本专利技术的另一实施例,量化式数据分析装置内建于一电子装置当中,以判断一待测文件或是正在执行的一应用程序是否具敏感性,此量化式数据分析装置内含一文本特征建置器以及一邻似特征搜寻器。文本特征建置器含有一数据撷取器、一数据划分器以及一文句分析器。数据撷取器取得一样本数据或是一待测文件,并分别自样本数据或是待测文件中,抽取出一原始数据或是一待测数据;数据划分器对原始数据或是待测数据的内容进行分段,以取得至少一原始数据段落或是至少一待测数据段落,并对原始数据段落或是待测数据段落进行划分,以取得多个原始文句或是多个待测文句。文句分析器自原始文句或是待测文句当中,撷取出数个原始文句属性或是数个待测文句属性,并依据原始文句属性或是待测文句属性,建立数个训练特征向量或是多个待测特征向量。邻似特征搜寻器依据待测特征向量、训练特征向量,以及差异临界值,决定待测文件是否为具敏感性。以上实施例的量化式数据分析装置以及量化式数据分析方法,是运用量化方式参考前后文的特征,以文件内容为基础进行分析,不因单一关键词而造成误判;对于未知文件或稍作修改的已知文件皆能正确判断,增加了可应用的层面。附图说明为让本专利技术的上述和其它目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:图1是绘示本专利技术一实施方式量化式数据分析方法的流程图;图2A、图2B以及图2C是绘示本专利技术两种实施方式量化式数据分析方法的流程图;图3是绘示本专利技术一实施方式特征向量说明示意图;图4是绘示本专利技术一实施方式量化式数据分析装置的方块图;图5A、图5B以及图5C是分别绘示本专利技术三种实施方式当中电子装置的应用示意图。【主要组件符号说明】具体实施方式以下实施例的量化式数据分析装置以及量化式数据分析方法,是运用量化方式参考前后文的特征,对文件内容为基础进行分析,未知文件或稍作修改的已知文件皆能正确判断;此外,使用者可自订相似度门槛值,作为分类的依据,增加了比对的弹性。请参见图1,其是绘示本专利技术一实施方式量化式数据分析方法的流程图。量化式数据分析方法应用于一计算机系统当中,此计算机系统可为区域计算机系统、网际计算机系统,或是电话计算机系统,以判断一待测文件是否具敏感性。量化式数据分析方法首先取得计算机系统当中的一样本数据(步骤101),例如,至计算机系统的数据库当中,取得企业、公司的教育训练文件、营业秘密或商业秘密文件、企划文书、规格说明书、企业宣传文件等,公司或是企业不希望外流的数据,作为样本数据,以这些样本数据的内容为基础,来判断其它文件的内容是否具敏感性。在取得样本数据之后,对样本数据的内容进行分段(步骤103),目地在取得至少一原始数据段落。接着,量化式数据分析方法会对所取得的原始数据段落进行划分(步骤105),以取得数个原始文句。一般而言,可以使用句号来对原始数据段落进行划分,每出现一个句号,代表一个句子的开始以及另一个句子的结束,借此得到数个原始文句。在步骤105取得数个原始文句之后,接着自这些原始文句当中撷取出数个原始文句属性(步骤107),其中,这些文句属性可以是字数、空白数目、逗号数目、引号数目、冒号数目、分号数目,以及英文与数字数目。也就是说,可以对一个原始文句内所含有的字数、空白数目、逗号数目、引号数目、冒号数目、分号数目,以及英文与数字数目进行累计加总,以得到加总数目。最后再依据原始文句属性,建立数个训练特征向量(步骤109),其中,这些训练特征向量是用来判断待测文件是否具敏感性的基础。举例来说,在取得待测文件的某一些特征向量之后,可以将待测文件的特征向量与所建立的训练特征向量进行比对,以两向量之间的差距为基础,判断待测文件是否为机敏文件。最后再将这些训练特征向量储存至计算机系统的一数据库(步骤111),以在数据库当中累积训练特征向量。请同时参照图2A、图2B以及图2C,其是绘示本专利技术两种实施方式量化式数据分析方法的流程图。在此两实施方式当中,步骤101~步骤109是与图1的实施方式相同,都是对企业或公司的样本数据建立训练特征向量。除了步骤101至步骤109以外,本实施方式当中的步骤201至步骤211则是用来决定差异临界值T,这个差异临界值T是用来判断文件敏感性的参数之一。量化式数据分析方法首先修改样本数据(步骤201)。详细来说,如果公司或是企业对资料敏感性的认定抱持较为严谨的态度,也就是说,即使待测文件与样本数据之间存在不少的差异,此待测文件仍然可能被判断为具敏感性,那么在修改样本数据时,就可以对样本数据进行较大幅度的修改,以取得容忍度较大的差异临界值T。在步骤201之后,量化式数据分析方法会对修改后的样本数据的内容进行分段(步骤203),以取得至少一修改数据段落,然后再对修改数据段落进行划分(步骤205),以取得数个修改文句;接着,量化式数据分析方法会自修改文句当中撷取出数个修改文句属性(步骤207),依据修改文句属性,建立数个修改特征向量(步骤209)。在此需要特别说明的是,修改特征向量与训练特征向量的建立方法大致相同。最后再依据训练特征向量以及修改特征向量之间的差异大小,决定差异临界值T(步骤211),这个差异临界值T是用来判断待测特征向量是否具相似性。详细来说,可以先将修改特征向量减去训练特征向量得到一个本文档来自技高网...
量化式数据分析方法以及量化式数据分析装置

【技术保护点】
一种量化式数据分析方法,其特征在于,应用于一计算机系统当中,以判断一待测文件是否具敏感性,该量化式数据分析方法包含:取得该计算机系统当中的一样本数据;对该样本数据的内容进行分段,以取得至少一原始数据段落;对该原始数据段落进行划分,以取得多个原始文句;自该些原始文句当中撷取出多个原始文句属性;以及依据该些原始文句属性,建立多个训练特征向量,其中,该些训练特征向量是用以判断该待测文件是否具敏感性。

【技术特征摘要】
1.一种量化式数据分析方法,其特征在于,应用于一计算机系统当中,以判断一待测文件是否具敏感性,该量化式数据分析方法包含:取得该计算机系统当中的一样本数据;对该样本数据的内容进行分段,以取得至少一原始数据段落;对该原始数据段落进行划分,以取得多个原始文句;自该些原始文句当中撷取出多个原始文句属性;依据该些原始文句属性,建立多个训练特征向量;修改该样本数据;对修改后的该样本数据的内容进行分段,以取得至少一修改数据段落;对该修改数据段落进行划分,以取得多个修改文句;自该些修改文句当中撷取出多个修改文句属性;依据该些修改文句属性,建立多个修改特征向量;以及依据该些训练特征向量以及该些修改特征向量之间的差异大小,决定一差异临界值,其中当对需要检验的一待测文件进行分析时,还包含:取得该待测文件的一待测数据;对该待测数据的内容进行分段,以取得至少一待测数据段落;对该待测数据段落进行划分,以取得多个待测文句;自该些待测文句当中撷取出多个待测文句属性;依据该些待测文句属性,建立多个待测特征向量;自该些待测特征向量当中择一,作为一现行待测特征向量;依据该现行待测特征向量,筛选出一训练特征向量子集合;计算该现行待测特征向量与该训练特征向量子集合的各元素的差异;依据与各元素的差异,判断该现行待测特征向量是否具有相似性;当该现行待测特征向量具相似性,参考一邻近边界值,检查该现行待测特征向量先前的多个待测向量是否具相似性;以及当该些待测向量具相似性,判定该待测文件具敏感性,其中,该些训练特征向量是用以判断该待测文件是否具敏感性。2.根据权利要求1所述的量化式数据分析方法,其特征在于,还包含:将该些训练特征向量储存至该计算机系统的一数据库当中,以在该数据库当中累积该些训练特征向量。3.根据权利要求1所述的量化式数据分析方法,其特征在于,该些待测文句属性包含字数、空白数目、逗号数目、引号数目、冒号数目、分号数目,以及英文与数字数目。4.根据权利要求1所述的量化式数据分析方法,其特征在于,是依据该现行待测特征向量以及一参数矩阵,筛选出与该现行待测特征向量数值相似的该训练特征向量子集合。5.根据权利要求1所述的量化式数据分析方法,其特征在于,当判断出该待测文件具敏感性时,回报一肯定值。6.根据权利要求1所述的量化式数据分析方法,其特征在于,当判断出该待测文件不具敏感性时,回报一否定值。7.一种量化式数据分析装置,其特征在于,内建于一电子装置当中,以判断一待测文件或...

【专利技术属性】
技术研发人员:游国正刘建宗蔡奕安
申请(专利权)人:财团法人资讯工业策进会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1