检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26377054 阅读:23 留言:0更新日期:2020-11-19 23:45
本申请提供一种检测方法、装置、电子设备及存储介质,包括:获取待测文本;基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;从所述待测文本中,提取出与所述关键文本信息相关的特征语句;将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,与利用完整的待测文本来进行篡改检测相比,极大地降低检测复杂度;其次,由于若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包括篡改后的信息,因此,利用特征语句能够准确地检测出待测文本是否被篡改。

【技术实现步骤摘要】
检测方法、装置、电子设备及存储介质
本申请涉及网络安全
,具体而言,涉及一种检测方法、装置、电子设备及存储介质。
技术介绍
我们正处于一个数字经济化时代,不论是刚刚起步或发展的中小企业,还是已经有了丰富资金经济脉络的大型企业,都需要建立自己的网站。网站已成为企事业单位的形象窗口,也是对外开展业务、提供服务的重要手段。如果网站的网页内容被恶意篡改,不仅会影响正常业务的开展,而且还会对企业形象带来极其不好的影响。基于此,现有技术提出通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容,并通过模拟链接跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容,继而通过比较所述第一页面内容与第二页面内容,得到一比较结果,最后根据所述比较结果识别所述目标网页是否为被篡改网页。然而,现有技术使用页面的全部内容进行检测,势必存在检测复杂度过大的问题。
技术实现思路
鉴于此,本申请实施例的目的在于提供一种检测方法、装置、电子设备及存储介质,以较低的复杂度准确地确定出待测文件是否被篡改。第一方面,本申请实施例提供一种检测方法,所述方法包括:获取待测文本;基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;从所述待测文本中,提取出与所述关键文本信息相关的特征语句;将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。在实际实施过程中,若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包含篡改后的信息,因此,在上述实现过程中,在获取到待测文本之后,基于预定关键字段,从所述待测文本中快速地提取出与所述预定关键字段对应的关键文本信息,继而从所述待测文本中,提取出与所述关键文本信息相关的特征语句,并将所述特征语句输入至预先训练好的检测模型中进行检测,与利用完整的待测文本来进行篡改检测相比,极大地降低检测复杂度;其次,由于若一个文本被篡改,那么与该文本的关键字段相关的语句通常会包括篡改后的信息,因此,利用特征语句能够准确地检测出待测文本是否被篡改。基于第一方面,在一种可能的设计中,所述从所述待测文本中,提取出与所述关键文本信息相关的特征语句,包括:对所述待测文本进行分句处理,得到多个语句;针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;从所述多个语句中,提取出相关性大于预设值的特征语句。与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,在上述实现过程中,利用与关键文本信息相关性大于预设值的语句来进行检测,不仅能够有效剔除噪声数据,提高检测精度,而且能够降低检测所需复杂度。基于第一方面,在一种可能的设计中,所述从所述多个语句中,提取出相关性大于预设值的特征语句,包括:从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。为了能够在保证检测准确度的基础上,进一步降低检测复杂度,因此,在上述实现过程中,在从所述多个语句中,提取出相关性大于预设值的多条待选特征语句之后,根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序,由于与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句来进行检测,保证检测准确度,其次,与直接利用全部待选特征语句进行检测相比,进一步降低检测复杂度。基于第一方面,在一种可能的设计中,所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,包括:将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。在上述实现过程中,通过将关键文本信息和特征语句一起用于篡改检测,进一步提高检测精度。基于第一方面,在一种可能的设计中,若所述特征语句的数量为至少两条;所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测的文本是否被篡改的结果,包括:根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;根据预先确定的字符输入长度,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句;将所述目标语句输入至所述检测模型中,得到表征所述待测的文本是否被篡改的结果。在检测模型对输入的字符的长度有限制的情况下,为了能够准确地确定出待测文本是否被篡改,其次,与关键文本信息越相关的语句越能反映待测文本是否被篡改,因此,在上述实现过程中,根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句之后,从所述排序后的语句中确定出排序结果靠前,且长度等于所述字符输入长度的目标语句来作为检测模型的最终输入,继而能够在满足模型输入长度限制的前提下,准确地确定出待测文本是否被篡改。基于第一方面,在一种可能的设计中,所述获取待测文本,包括:获取待检测的原始文本;从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本。由于待检测的原始文本中可能会存在乱码字符情况,可以理解的是,乱码字符不仅会增加检测复杂度,而且还会对检测形成干扰,因此,在上述实现过程中,从所述待检测的原始文本中,删除ASCII值不满足预设条件的字符,得到所述待测文本,继而能够使得待测文本中不包含乱码字符,进而降低后续检测复杂度,以及提高检测精度。基于第一方面,在一种可能的设计中,所述方法还包括:建立待训练的检测模型;获取多个待训练的文本样本和表征各个待训练的文本样本是否被篡改的标签;所述多个待训练的文本样本包括:包含篡改信息的文本样本,以及未包含篡改信息的文本样本;基于所述多个待训练的文本样本,以及与各个待训练的文本样本对应的标签,对所述待训练的检测模型进行训练。在上述实现过程中,利用包含篡改信息和未包含篡改信息的待训练文本来训练检测模型,继而便于后续能够利用训练好的模型来进行篡改检测。第二方面,本申请实施例提供一种检测装置,所述装置包括:获取单元,用于获取待测文本;文本信息提取单元,用于基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;特征语句提取单,用于从所述待测文本中,提取出与所述关键文本信息相关的特征语句;检测单元,用于将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。基于第二方面,在一种可能的设计中,所述特征语句提取单元,包括:分句单元,用于对所述待测文本进行分句处理,得到多个语句;相关性确定单元,用于针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;特征语句提取子单元,用于从所述多个语句中,提取出相关性大于预设值的特征语句。基于第二方面,在一种可能的设计中,所述特征语句提取子单元本文档来自技高网...

【技术保护点】
1.一种检测方法,其特征在于,所述方法包括:/n获取待测文本;/n基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;/n从所述待测文本中,提取出与所述关键文本信息相关的特征语句;/n将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。/n

【技术特征摘要】
1.一种检测方法,其特征在于,所述方法包括:
获取待测文本;
基于预定关键字段,从所述待测文本中提取出与所述预定关键字段对应的关键文本信息;
从所述待测文本中,提取出与所述关键文本信息相关的特征语句;
将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果。


2.根据权利要求1所述的方法,其特征在于,所述从所述待测文本中,提取出与所述关键文本信息相关的特征语句,包括:
对所述待测文本进行分句处理,得到多个语句;
针对所述多个语句中的每个语句,确定该语句与所述关键文本信息的相关性;
从所述多个语句中,提取出相关性大于预设值的特征语句。


3.根据权利要求2所述的方法,其特征在于,所述从所述多个语句中,提取出相关性大于预设值的特征语句,包括:
从所述多个语句中,提取出相关性大于预设值的多条待选特征语句;
根据相关性大小,按照从大到小的顺序对所述多条待选特征语句进行排序;
根据排序结果,从所述多条待选特征语句中确定出相关性排序位于前预设位的至少两条特征语句。


4.根据权利要求1所述的方法,其特征在于,所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测文本是否被篡改的结果,包括:
将所述特征语句和所述关键文本信息输入至所述检测模型中,得到表征所述待测文本是否被篡改的结果。


5.根据权利要求1所述的方法,其特征在于,若所述特征语句的数量为至少两条;所述将所述特征语句输入至预先训练好的检测模型中,得到表征所述待测的文本是否被篡改的结果,包括:
根据相关性的大小,按照从大到小的顺序对至少两条所述特征语句进行排序,得到一条排序后的语句;
...

【专利技术属性】
技术研发人员:潘季明姚剑文
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1