【技术实现步骤摘要】
文件类别检测方法和装置
本申请实施例涉及计算机
,具体涉及文件类别检测方法和装置。
技术介绍
webshell监测系统通常是,先人工预先制定大量规则,然后再基于所制定的规则判断网页服务器中的网页文件是否为webshell文件。
技术实现思路
本申请实施例提出了文件类别检测方法和装置。第一方面,本申请实施例提供了一种文件类别检测方法,该方法包括:获取包括文本的待检测文件;对文本进行分词处理,得到至少一个切分词;根据至少一个切分词和预先构建的切分词集合,得到第一文本向量;将第一文本向量输入预先构建的第一分类模型,得到文件类别信息,其中,第一分类模型用于表征文本向量与文件类别信息的对应关系。在一些实施例中,第一分类模型通过以下步骤训练得到:获取训练样本集,其中,训练样本包括训练文本和针对训练文本的文件类别信息;对于训练样本集中的训练样本,对该训练样本的训练文本进行分词处理,得到该训练样本的训练文本的至少一个切分词,根据所得到的至少一个切分词和切分词集合,得到该训练样本的训练文本的文本向量, ...
【技术保护点】
1.一种文件类别检测方法,包括:/n获取包括文本的待检测文件;/n对所述文本进行分词处理,得到至少一个切分词;/n根据所述至少一个切分词和预先构建的切分词集合,得到第一文本向量;/n将所述第一文本向量输入预先构建的第一分类模型,得到文件类别信息,其中,所述第一分类模型用于表征文本向量与文件类别信息的对应关系。/n
【技术特征摘要】
1.一种文件类别检测方法,包括:
获取包括文本的待检测文件;
对所述文本进行分词处理,得到至少一个切分词;
根据所述至少一个切分词和预先构建的切分词集合,得到第一文本向量;
将所述第一文本向量输入预先构建的第一分类模型,得到文件类别信息,其中,所述第一分类模型用于表征文本向量与文件类别信息的对应关系。
2.根据权利要求1所述的方法,其中,所述第一分类模型通过以下步骤训练得到:
获取训练样本集,其中,训练样本包括训练文本和针对训练文本的文件类别信息;
对于所述训练样本集中的训练样本,对该训练样本的训练文本进行分词处理,得到该训练样本的训练文本的至少一个切分词,根据所得到的至少一个切分词和所述切分词集合,得到该训练样本的训练文本的文本向量,将所得到的文本向量存入第一文本向量集合;
利用机器学习方法,将所述第一文本向量集合中的文本向量作为输入,将所输入的文本向量所对应的文件类别信息作为期望输出,训练得到第一分类模型。
3.根据权利要求1所述的方法,其中,所述切分词集合通过以下步骤构建:
获取训练样本集,其中,训练样本包括训练文本;
对于所述训练样本集中的训练样本,对该训练样本的训练文本进行分词处理,得到该训练样本的训练文本的至少一个切分词,将所得到的至少一个切分词存入切分词集合。
4.根据权利要求2所述的方法,其中,所述训练样本集包括以下至少一项:初始训练样本集;对所述初始训练样本集进行过滤处理后得到的训练样本集。
5.根据权利要求1所述的方法,其中,所述根据所述至少一个切分词和预先构建的切分词集合,得到第一文本向量,包括:
对于所述至少一个切分词中的切分词,从所述切分词集合中查找与该切分词相匹配的切分词;响应于查找到与该切分词相匹配的切分词,将该切分词在所述至少一个切分词中的出现次数,确定为该切分词的向量值;将所确定的向量值存入第一文本向量。
6.根据权利要求1-5之一所述的方法,其中,所述方法还包括:
响应于确定所述文件类别信息指示所述待检测文件为目标类别的文件,将所述待检测文件发送至通信连接的类别检测服务器,以使得所述类别检测服务器进一步检测所述待检测文件的文件类别。
7.根据权利要求6所述的方法,其中,所述方法还包括:
接收所述类别检测服务器基于所述待检测文件发送的文件类别信息;
响应于确定所接收到的文件类别信息指示所述待检测文件为目标类别的文件,移除所述待检测文件。
8.一种文件类别检测装置,包括:
文件获取单元,被配置成获取包括文本的待检测文件;
文本切分单元,被配置成对所述文本进行分词处理,得到至少一个切分词;
向量生成单元,被配置成根据所述至少一个切分词和预先构建的切分词集合...
【专利技术属性】
技术研发人员:赵志辉,程汝峰,洪敬风,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。