定位目标样本的方法和装置制造方法及图纸

技术编号:10279527 阅读:120 留言:0更新日期:2014-08-02 21:14
本发明专利技术提出一种定位目标样本的方法和装置,该定位目标样本的方法包括将样本文件转换为字符串;对所述字符串进行分词处理,得到分词处理后的样本文件;如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。该方法能够提高定位目标样本的准确度。

【技术实现步骤摘要】
定位目标样本的方法和装置
本专利技术涉及通信
,尤其涉及一种定位目标样本的方法和装置。
技术介绍
随着计算世界的发展,要处理的样本是非常庞大的。很多时候需要在庞大的样本中定位出目标样本,例如,在杀毒软件中,需要在扫描的海量样本中定位出可能存在病毒的目标样本,以便进一步处理。相关技术中,在病毒查杀时,是采用逻辑方式定位出目标样本,S卩,判断指定字段是否为指定值,例如,源地址字段是否为某一设定的地址,如果某一样本的指定字段为指定值,则将该样本定位为目标样本。但是,随着黑客技术的不断提高,黑客可能对上述的指定字段进行修饰,使得指定字段并无异常,这就会造成按照上述的逻辑方式不能准确定位目标样本。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种定位目标样本的方法,该方法可以提高定位目标样本的准确度。本专利技术的另一个目的在于提出一种定位目标样本的装置。为达到上述目的,本专利技术第一方面实施例提出的定位目标样本的方法,包括:将样本文件转换为字符串;对所述字符串进行分词处理,得到分词处理后的样本文件;如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。本专利技术第一方面实施例提出的定位目标样本的方法,通过将样本文件转换为字符串,再根据字符串得到样本文件中包括的分词,通过比对预设的关键词和样本中的分词来确定目标文件,不限于某一字段的比对,相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。为达到上述目的,本专利技术第二方面实施例提出的定位目标样本的装置,包括:转换模块,用于将样本文件转换为字符串;处理模块,用于对所述字符串进行分词处理,得到分词处理后的样本文件;确定模块,用于如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。本专利技术第二方面实施例提出的定位目标样本的装置,通过将样本文件转换为字符串,再根据字符串得到样本文件中包括的分词,通过比对预设的关键词和样本中的分词来确定目标文件,不限于某一字段的比对,相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。为达到上述目的,本专利技术第三方面实施例提出的客户端设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为客户端设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:将样本文件转换为字符串;对所述字符串进行分词处理,得到分词处理后的样本文件;如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。本专利技术第三方面实施例提出的客户端设备,通过将样本文件转换为字符串,再根据字符串得到样本文件中包括的分词,通过比对预设的关键词和样本中的分词来确定目标文件,不限于某一字段的比对,相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术一实施例提出的定位目标样本的方法的流程示意图;图2为本专利技术另一实施例提出的定位目标样本文件的方法的流程示意图;图3为本专利技术另一实施例提出的定位目标样本的装置的结构示意图;图4为本专利技术另一实施例提出的定位目标样本的装置的结构示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1为本专利技术一实施例提出的定位目标样本的方法的流程示意图,该方法包括:Sll:将样本文件转换为字符串;其中,通常来讲,样本文件都是二进制文件,为了后续与关键词进行匹配,需要将二进制文件转换为字符串。S12:对所述字符串进行分词处理,得到分词处理后的样本文件;其中,本专利技术实施例采用与关键词进行比对的方式来确定目标样本文件,因此作为被比较的一方的样本文件需要首先得到样本文件中的各分词。S13:如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。其中,本专利技术实施例可以预设关键词,以将包含该关键词的样本文件确定为目标样本。例如,预设关键词为“支付宝”,如果第一样本文件中包含“支付宝”这一分词时,可以将该第一样本文件确定为目标样本。在确定目标样本之后,可以将目标样本作为病毒进行杀毒处理,或者,也可以进一步确定目标样本是否为病毒,进一步确定的方式可以是人工或者学习统计的方式,具体的进一步确定目标样本是否为病毒的方式可以采用相关技术实现,不在本专利技术实施例的探讨范围内。本实施例通过将样本文件转换为字符串,再根据字符串得到样本文件中包括的分词,通过比对预设的关键词和样本中的分词来确定目标文件,不限于某一字段的比对,相对于相关技术中仅比对某一字段的方式可以提高定位目标样本的准确度。图2为本专利技术另一实施例提出的定位目标样本文件的方法的流程示意图,该方法包括:S21:对样本文件进行脱壳处理。其中,作者编好软件后,编译成exe可执行文件,为了保护一些信息,例如将版权信息保护起来,不想让别人随便改动,如作者的姓名,可以对编译好的可执行文件进行加壳处理;或者,有时需要将程序变小,方便使用,此时也可以通过加壳以完成压缩;或者,黑客给木马软件加壳以躲避杀毒软件。由于上述的一些理由,使得一些样本文件是加壳软件,为了获取源文件,需要对这些加壳软件进行脱壳处理。脱壳的一般流程可以包括:查壳_>寻找入口点(OriginalEntry Point, OEP)->倾出(Dump)->修复。由于脱壳也是比较成熟的技术,本专利技术实施例不再赘述。S22:将脱壳处理后的样本文件转换为字符串。其中,脱壳处理后的样本文件是二进制文件,可以将该二进制文件的每8位转换为一个字符,由此将样本文件转换为字符串。S23:对字符串进行降噪处理,得到降噪处理后的字符串。其中,在转换得到的字符串中可能会存在一些噪声信息,为了提高样本的有效性,可以在字符串中去除这些噪声信息,以得到降噪处理后的字符串。噪声信息例如为:很长的数字,如连续的20个以上的数字;或者,很长的英文,如连续的20个以上的英文;或者,一些无明确意义的字符,例如,“的”、“了”这类字符。S24:对降噪处理后的字符串进行分词处理,得到分词处理后的样本文件。其中,具体的分词处理可以采用字符串匹配法、词义分词法或者统计分词法等。分词技术也是比较成熟的技术,本专利技术实施例不再赘述。进一步的,为了更有效的分词,本专利技术实施例还可以采用自学习的方式进行分词。例如,根据实时统计的搜索词,采用与现有不同的方式进行分词,以得到不同的分词词语。具体如,现本文档来自技高网...
定位目标样本的方法和装置

【技术保护点】
一种定位目标样本的方法,其特征在于,包括:将样本文件转换为字符串;对所述字符串进行分词处理,得到分词处理后的样本文件;如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。

【技术特征摘要】
1.一种定位目标样本的方法,其特征在于,包括: 将样本文件转换为字符串; 对所述字符串进行分词处理,得到分词处理后的样本文件; 如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本。2.根据权利要求1所述的方法,其特征在于,所述将样本文件转换为字符串,包括: 对所述样本文件进行脱壳处理; 将脱壳处理后的样本文件转换为字符串。3.根据权利要求1所述的方法,其特征在于,所述对所述字符串进行分词处理,得到分词处理后的样本文件,包括: 对所述字符串进行降噪处理,得到降噪处理后的字符串; 对所述降噪处理后的字符串进行分词处理,得到分词处理后的样本文件。4.根据权利要求1至3任一项所述的方法,其特征在于,所述得到分词处理后的样本文件之后,所述方法还包括: 建立每个分词与包括所述分词的样本文件之间的对应关系。5.根据权利要求4所述的方法,其特征在于,所述如果所述分词处理后的样本文件中包括预设的关键词,将所述包括预设的关键词的样本文件确定为目标样本,包括: 根据所述对应关系,将与所述预设的关键词相同的...

【专利技术属性】
技术研发人员:周吉文
申请(专利权)人:安一恒通北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1