一种侵权风险自动化检测方法、装置和电子设备制造方法及图纸

技术编号:28943846 阅读:25 留言:0更新日期:2021-06-18 21:53
本发明专利技术公开了一种侵权风险自动化检测方法,包括:采集多个类型的风险数据;基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及利用侵权风险等级评定算法,基于多个风险值计算得到侵权风险等级。还公开了相应的装置、电子设备及计算机可读存储介质,检测方法高度自动化,对存在逃逸现象的侵权风险有较高的检出率;整个侵权风险等级评定方法具有高度可解释性。同时,图上的微粒度侵权实例检索模块中,通过候选区域识别和图搜图的向量检索方式结合实现目标检测的功能,使得该模块可以在不更新候选区域识别模型的情况下可以适配识别海量品牌LOGO的业务需求;通过加入扰动因子和权重系数,提高了评定方法的鲁棒性和精确性。

【技术实现步骤摘要】
一种侵权风险自动化检测方法、装置和电子设备
本专利技术涉及信息处理
,尤其涉及一种侵权风险自动化检测方法、装置和电子设备。
技术介绍
企业品牌保护是企业发展核心战略之一,原因在于企业品牌形象的非授权冒用和滥用会严重损害企业形象进而导致不可估量的经济损失。因此在品牌建设发展的过程中,各个企业通过严厉打击假冒,侵权等行为对商标,知识产权成果进行保护来预防和化解危机以保护品牌权益不受侵犯。构建侵权风险自动化检测方法,对企业数字风险防护具有重要的现实意义,可以缩短发现风险到处置风险的时长,降低侵权风险可能带来的经济损失。然而目前还没有一套高效且检测精度较高的侵权风险自动化检测方法、装置和电子设备,发现风险的过程具有随机性,对于企业的防护不够全面和完整,检测具有随机性,自动化程度不高。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。本专利技术一方面提供了一种侵权风险自动化检测方法,包括:采集多个类型的风险数据;基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级。进一步地,所述风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集所述网页的源代码和结构化信息获得的所述风险数据的上下文信息,其中所述网页的页面截图信息和所述网页内的图片信息为图像类数据。进一步地,所述结构化信息包括域名。进一步地,所述基于所采集的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:所述域名相似度计算包括通过向量检索计算所述网页的所述域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若所述第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的域名信息确定所述域名相似度计算中的所述关联关系;所述页面相似度计算包括通过向量检索计算所述网页的所述页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若所述第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;所述登录组件检测包括通过所述网页的源代码检测所述网页中是否包含登录组件,若所述第二风险值大于或等于第二阈值,所述网页的所述页面截图与所述品牌基础信息库中品牌图像信息不存在关联关系并且所述网页包含登陆组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;所述PassiveDNS信息查询包括对于DNS首次解析时间距今的时间间隔小于第一预定值的网站查询对应域名的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;所述对抗攻击图像检测包括检测所述图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于PixelDenoising将所述图像类数据去噪后,通过向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗攻击图像检测中的所述关联关系;以及所述图上微粒度实例检索包括构建优化后的pipeline图上微粒度实例检索模型,将可疑网站的截图经过处理后输入所述模型中获得经过处理后由网页截图分割出的侵权实体图像,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的比较确定所述图上微粒度实例检测中的所述关联关系。进一步地,所述图上微粒度实例检索包括:图像分割预处理,包括输入可疑网站的截图,将所述截图切分为顶部、尾部和中下部;识别候选区域,包括基于神经网络模型识别候选区域并基于所述向量检索进行所述候选区域的图像分类;将所述候选区域的识别与所述候选区域的图像分类进行组合,形成优化后的所述图上微粒度实例检索的模型;裁剪和修饰所述候选区域,将基于所述神经网络模型标注的框内图片进行剪切,将剪切后的所述图片缩放成标准大小;比对图像相似性,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值,则不存在疑似侵权风险。进一步地,所述神经网络模型包括样本训练阶段,所述样本训练阶段采用数据增强方法提高所述神经网络模型的精度并提高样本数量,所述数据增强方法包括对所述图片随机旋转、翻转、裁剪,随机设置所述图片的亮度和对比度以及对所述图片进行数据标准化设置。进一步地,所述侵权风险等级评定算法如下所示:侵权风险等级分为10个等级,1表示最高风险等级,10表示最低的风险等级,其中表示第个影响因素对应的风险值,表示第个因素在侵权风险等级评定体系中的权重,通过层次分析法得出,为增加评定方法稳定性的扰动因子,为所述扰动因子对应的权重,影响因素的权重。本专利技术的第二方面,提供一种侵权风险自动化检测装置,包括:采集模块,用于采集风险数据;计算模块,用于基于所采集的风险数据进行侵权风险计算;以及评定模块,用于基于侵权风险等级评定算法评定侵权风险等级。本专利技术的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。本专利技术提供侵权风险自动化检测方法、装置和电子设备,包含风险信息采集部分,侵权风险计算部分和侵权风险等级评定部分,具有如下有益效果:1)检测方法高度自动化,对存在逃逸现象的侵权风险有较高的检出率。2)侵权风险计算模块的检测结果作为侵权风险等级评定的影响因素,使得整个侵权风险等级评定方法具有高度可解释性。同时,图上的微粒度侵权实例检索本文档来自技高网...

【技术保护点】
1.一种侵权风险自动化检测方法,其特征在于,包括:/n采集多个类型的风险数据;/n基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及/n利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级。/n

【技术特征摘要】
1.一种侵权风险自动化检测方法,其特征在于,包括:
采集多个类型的风险数据;
基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及
利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级。


2.根据权利要求1所述的方法,其特征在于,所述风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集所述网页的源代码和结构化信息获得的所述风险数据的上下文信息,其中所述网页的页面截图信息和所述网页内的图片信息为图像类数据。


3.根据权利要求2所述的方法,其特征在于,所述结构化信息包括域名。


4.根据权利要求3所述的方法,其特征在于,所述基于所采集的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:
所述域名相似度计算包括通过向量检索计算所述网页的所述域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若所述第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的域名信息确定所述域名相似度计算中的所述关联关系;
所述页面相似度计算包括通过向量检索计算所述网页的所述页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若所述第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;
所述登录组件检测包括通过所述网页的源代码检测所述网页中是否包含登录组件,若所述第二风险值大于或等于第二阈值,所述网页的所述页面截图与所述品牌基础信息库中品牌图像信息不存在关联关系并且所述网页中包含登陆组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;
所述PassiveDNS信息查询包括对于DNS首次解析时间距今的时间间隔小于第一预定值的网站查询对应域名的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;
所述对抗攻击图像检测包括检测所述图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于PixelDenoising将所述图像类数据去噪后,通过向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗...

【专利技术属性】
技术研发人员:董龙飞
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1