一种目标信息识别方法和装置制造方法及图纸

技术编号:13059689 阅读:66 留言:0更新日期:2016-03-24 00:00
本发明专利技术公开了一种目标信息识别方法和装置。该方法包括:获取检测内容中包括的待识别数据;根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。本发明专利技术实施例所提供的技术方案,根据待识别数据的类型计算对应的目标特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目标信息,使得目标信息识别的有效性及准确性更高。

【技术实现步骤摘要】

本专利技术涉及网络安全
,尤其涉及一种目标信息识别方法和装置
技术介绍
随着互联网及移动网络的迅速发展,借由网络传播消息的快捷性,越来越多的用 户选择通过互联网平台与他人交流,共享信息,如可以通过网站或终端应用软件等方式。伴 随而来也会产生许多不符合互联网安全使用环境,甚至是违反国家法律法规的内容,如政 治敏感、淫秽色情的图像或词汇等等,导致相关的网站存在安全运营风险;某些商贩为了提 升自身店铺/商品的曝光度,会在各互联网环境下,通过文本或文本结合图像形式,疯狂宣 传自家产品,使得网站或应用软件的用户体验极差,甚至出现利用广告信息进行诈骗等不 良现象,给互联网安全管理工作带来了非常大的压力。因此,为了保证网络环境的安全以及 用户的良好体验,有必要采用技术手段对目标信息(典型的,广告类信息)进行识别。然而,现有的目标信息识别方法往往只能识别某一种类型的数据(图像或文本),通用性不强,无法满足人们日益增长的目标信息识别需求。
技术实现思路
有鉴于此,本专利技术实施例提供一种目标信息识别方法和装置,以解决现有目标信 息识别技术只能识别某一种类型的数据的问题。第一方面,本专利技术实施例提供了一种目标信息识别方法,包括:获取检测内容中包括的待识别数据;根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。第二方面,本专利技术实施例提供了一种目标信息识别装置,包括: 待识别数据获取模块,用于获取检测内容中包括的待识别数据; 特征向量计算模块,用于根据所述待识别数据的类型,计算与所述待识别数据对 应的目标特征向量; 目标信息识别模块,用于根据计算得到的所述目标特征向量,识别所述检测内容 中包括的目标信息。本专利技术实施例所提供的技术方案,根据获取的待识别数据的类型计算对应的目标 特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目 标信息,使得目标信息识别的有效性及准确性更高。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它 特征、目的和优点将会变得更明显: 图1是本专利技术实施例一提供的一种目标信息识别方法的流程图; 图2是本专利技术实施例二提供的一种目标信息识别方法的流程图;图3是本专利技术实施例三提供的一种目标信息识别装置的结构框图。【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。 实施例一 图1为本专利技术实施例一提供的一种目标信息识别方法的流程图。本实施例的方法 具体可用于终端或服务器内对所获取的数据中目标信息进行识别的情况,尤其适用于网页 敏感信息的识别。本实施例的方法可以由目标信息识别装置来执行,该装置可独立的配置 在终端中,或者分布式配置在终端和服务器中,两者配合实现本实施例的方法。 本实施例的方法包括: S110、获取检测内容中包括的待识别数据。 待识别数据可以是检测内容的全部也可以是检测内容的一部分。示例性的,如果 本实施例的方法应用于终端内对所下载或者打开的网页进行识别的情况,检测内容可以是 设定网页,待识别数据可以是该网页展示给用户的界面中包括的全部或部分数据内容信 息。 如果本实施例的方法应用于网站服务器对终端用户上传的内容进行识别的情况, 检测内容可以是用户通过PC(PersonalComputer,个人计算机)或移动终端上传至该网站 的内容,待识别数据则可以是该上传内容中包括的全部或部分数据内容。 S120、根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量。 其中,待识别数据的类型包括文本、图像、文本与图像结合等。特征向量用于表述 所提取的特征,特征提取的主要目的是将原始样本投影到一个低维特征空间,得到最能反 应样本本质或进行样本区分的低维样本特征。 相应的,如果待识别数据的类型为文本,计算与所述待识别数据对应的目标特征 向量可以包括:计算与所述文本数据对应的文本特征向量;如果待识别数据的类型为图 像,计算与所述待识别数据对应的目标特征向量可以包括:计算与所述图像数据对应的图 像特征向量;如果待识别数据的类型为文本和图像,计算与所述待识别数据对应的目标特 征向量可以包括:计算同时与所述文本数据和所述图像数据对应的多数据特征向量。 其中,可以通过一种或多种现有的文本特征提取方法或者图像特征提取方法来计 算与文本数据对应的文本特征向量以及与图像数据对应的图像特征向量,这里并不进行限 制。S130、根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。 示例性的,可选用机器学习中监督学习进行分类和预测(regression&classify), 在机器学习过程中提供对错指示,通过算法减少误差。监督学习可以从给定的训练数据集 中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要 求是包括输入和输出,也可以说是特征和目标。进而,根据计算得到的所述目标特征向量, 识别所述检测内容中包括的目标信息。 优选的,可以通过模型比对的方式,来识别检测内容中包括的目标信息。例如:将 得到的目标特征向量与预先训练好的模型进行相关度计算,当计算结果超过一个设定的相 关度阈值时,确定与所述目标特征向量对应的待识别数据中包含有目标信息。 综上,本实施所提供的技术方案,根据获取的待识别数据的类型计算对应的目标 特征向量,对待识别数据进行识别,可以识别多种数据类型的待识别数据,针对性地识别目 标信息,使得目标信息识别的有效性及准确性更高。 实施例二图2为本专利技术实施例二提供的一种目标信息识别方法的流程图。本实施例所提供 的技术方案是在上述实施例的基础上进一步的优化,该方法包括:S210、获取检测内容中包括的待识别数据。S220、判断所述待识别数据的类型是否为一项:若是,执行S230;否则,执行S240。 示例性的,可以判断所述待识别数据是仅包括图像数据或者文本数据,还是同时 包括图像数据和文本数据。进而,根据所述待识别数据的类型,计算与所述待识别数据对应 的数据特征向量作为所述目标特征向量。S230、计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量。 所述待识别数据的数据类型为一项,可以是只包含文本信息或者只包含图像信息 中的一项。在计算与所述待识别数据对应的单数据特征向量作为所述目标特征向量之前, 需要进一步判断当前待识别数据为文本还是图像,如果待识别数据的类型仅包含文本数 据,则计算与所述待识别文本数据对应的文本特征向量作为所述目标特征向量;如果待识 别数据的类型仅包含图像数据,则计算与所述待识别文本数据对应的图像特征向量作为所 述目标特征向当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种目标信息识别方法,其特征在于,包括:获取检测内容中包括的待识别数据;根据所述待识别数据的类型,计算与所述待识别数据对应的目标特征向量;根据计算得到的所述目标特征向量,识别所述检测内容中包括的目标信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕志高邹国平
申请(专利权)人:杭州九言科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1