一种获得网页搜索关键字的标识特征的方法及装置制造方法及图纸

技术编号:17615541 阅读:30 留言:0更新日期:2018-04-04 06:46
本申请提供一种获得网页搜索关键字的标识特征的方法,其特征在于,所述方法包括:获得根据用户在网页中搜索的关键字生成的URL;从所述URL中提取至少一个由开始特征、待确认关键字及结束特征组成的字段;将解析得到的至少一个字段发送至用户界面显示,以使用户根据所搜索的关键字、及所显示字段中的待确认关键字,确认所显示字段中的正确字段;接收用户确认的正确字段,获得该字段的开始特征与结束特征,所述开始特征与结束特征组成所述网页的标识特征。应用本申请方案,可以灵活地根据实际需求获得网页搜索关键字的标识特征。

A method and device for obtaining identification features of web search keywords

The present invention provides a method for identifying features of web search keywords, which is characterized in that the method comprises the following steps: according to user search keyword generation on the website of the URL; extracting at least one from the beginning, to confirm the keywords of field and characteristic features of the composition of the end from the URL; at least one the field is sent to the user interface of the display, according to the users to search keywords, and displayed in the field to confirm the keyword, correct field in the field to confirm the correct field display; receiving user confirmation, get the starting characteristics of the field and the end of the beginning and end of feature, feature composition the identification of web pages. Using this application scheme, the identification features of web search keywords can be obtained flexibly according to the actual requirements.

【技术实现步骤摘要】
一种获得网页搜索关键字的标识特征的方法及装置
本申请涉及互联网
,尤其涉及一种获得网页搜索关键字的标识特征的方法及装置。
技术介绍
随着网络技术的发展,对用户在网页中搜索的关键字进行审计,从而保障网络安全的需求日益增加。用户在网页中进行搜索时,将生成HTTP/GET报文发送至网页服务器,该报文的URL中包括并通过某种形式的特征标识了用户输入的关键字,因此通过解析URL数据,即可提取用户所搜索的关键字进行审计。然而,不同网页所使用的标识特征没有统一的标准,因此在对某一网页进行搜索关键字审计前,首先需要获得该网页的关键字标识特征。现有技术中,通常是由专业的技术工程师分析常用的搜索引擎、门户网站等网页的搜索URL数据,提取网页的标识特征,在审计设备出厂时内置这些常用网页的标识特征,并由专业的分析团队长期地为用户提供常用网页及其标识特征的更新补丁。显然这种方式灵活性较差,一方面只能满足用户的一般需求,对于针对性较强的、较为小众的网页,如专业性网站、学校内部论坛等类别的网页,无法提供全面的审计覆盖,另一方面,定期提供更新补丁的方式,也无法适应互联网中的网页与资讯的更新速度,审计效果较差。
技术实现思路
有鉴于此,本申请提供一种获得网页搜索关键字的标识特征的方法及装置,技术方案如下:根据本申请的第一方面,提供一种获得网页搜索关键字的标识特征的方法,该方法包括:获得根据用户在网页中搜索的关键字生成的URL;从所述URL中提取至少一个由开始特征、待确认关键字及结束特征组成的字段;将解析得到的至少一个字段发送至用户界面显示,以使用户根据所搜索的关键字、及所显示字段中的待确认关键字,确认所显示字段中的正确字段;接收用户确认的正确字段,获得该字段的开始特征与结束特征,所述开始特征与结束特征组成所述网页的标识特征。根据本申请的第二方面,提供一种基于前述网页标识特征的网页搜索关键字提取方法,该方法包括:解析用户设备生成的HTTP/GET报文,得到该报文中的网页域名与URL;在确认所述网页域名对应的网页为待审计网页的情况下,获得预先存储的所述网页域名对应的标识特征;在该URL中查找该标识特征的开始特征与结束特征;提取开始特征与结束特征间的数据,所述数据即为用户在该网页中搜索的关键字。根据本申请的第三方面,提供一种获得网页搜索关键字的标识特征的装置,该装置包括:URL获得模块,用于获得根据用户在网页中搜索的关键字生成的URL;字段提取模块,用于从所述URL中提取至少一个由开始特征、待确认关键字及结束特征组成的字段;字段显示模块,用于将解析得到的至少一个字段发送至用户界面显示,以使用户根据所搜索的关键字、及所显示字段中的待确认关键字,确认所显示字段中的正确字段;特征获得模块,用于接收用户确认的正确字段,获得该字段的开始特征与结束特征,所述开始特征与结束特征组成所述网页的标识特征。根据本申请的第四方面,提供一种基于前述网页标识特征的网页搜索关键字提取装置,该装置包括:报文解析模块,用于解析用户设备生成的HTTP/GET报文,得到该报文中的网页域名与URL;存储特征获得模块,用于在确认所述网页域名对应的网页为待审计网页的情况下,获得预先存储的所述网页域名对应的标识特征;特征查找模块,用于在该URL中查找该标识特征的开始特征与结束特征;关键字提取模块,用于提取开始特征与结束特征间的数据,所述数据即为用户在该网页中搜索的关键字。本申请所提供的技术方案,可以根据在网页中搜索关键字时生成的HTTP/GET报文中的URL,自动地提取可能包括标识特征及关键字的字段,并可以由用户根据其所输入的关键字,确认正确的字段,从而得到该网页的标识特征,获得标识特征之后,即可在用户上网过程中提取并审计其在该网页搜索的关键字。由于分析、获得网页标识特征的过程可以不需要专业的技术人员参与,因此灵活性较高,可以由普通用户在使用过程中具有针对性地添加常用的网页,或者根据需求随时更新网页与标识特征,使得审计效果更好。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。此外,本申请中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本申请实施例获得网页搜索关键字的标识特征的方法的流程示意图;图2是本申请实施例网页搜索关键字提取方法的流程示意图;图3是本申请实施例获得网页搜索关键字的标识特征的装置的一种结构示意图;图4是本申请实施例获得网页搜索关键字的标识特征的装置的另一种结构示意图;图5是本申请实施例网页搜索关键字提取装置的一种结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。对用户在网页中搜索的关键字进行审计,可以通过解析搜索时用户设备生成并需要发送至网页服务器的HTTP/GET报文实现,该报文的URL中包括并通过某种形式的特征标识了用户输入的关键字,因此首先需要获得用户进行搜索的网页的关键字标识特征。多数审计设备是在出厂时内置由专业工程师分析并提取的常用网页的标识特征,并且可以在使用过程中定期地通过补丁的方式更新网页及标识特征。审计设备内置的常用网页进行升级时,可能会更换标识特征,将导致原因的关键字审计方式失效,此外由于网络的迅速发展,常用的新旧网页也在迅速更迭,因此,如果审计设备中的配置的网页及其标识特征不能及时更新,将对审计效果产生较大的影响,而保持更新补丁的及时性又需要较多的人力。此外,部分用户可能还需要对某些专业性强的、较为小众的网页进行审计,若要对此进行专门定制,也需要较多的人力。因此,为了便于用户在使用过程中根据网络的发展及自身需求,针对性地增加、修改审计设备中配置的网页及标识特征,本申请提供一种获得网页搜索关键字的标识特征的方法,参见图1所示,该方法包括以下步骤:S101,获得根据用户在网页中搜索的关键字生成的URL;用户需要获得某个网页的标识特征时,首先可以在该网页中搜索某个关键字,获取搜索结果的请求将以HTTP/GET报文的形式,发送至网页服务器,而报文的URL中通过某种形式的特征标识了用户输入的关键字,因此需要获得网页的标识特征,首先需要获得搜索时生成的URL。例如,假设用户需要获得域名为“tieba.baidu.com”的网页的标识特征,则可以在该网页中搜索任意关键字,例如可以搜索“eeeee”,则获得HTTP/GET报文的首本文档来自技高网...
一种获得网页搜索关键字的标识特征的方法及装置

【技术保护点】
一种获得网页搜索关键字的标识特征的方法,其特征在于,所述方法包括:获得根据用户在网页中搜索的关键字生成的URL;从所述URL中提取至少一个由开始特征、待确认关键字及结束特征组成的字段;将解析得到的至少一个字段发送至用户界面显示,以使用户根据所搜索的关键字、及所显示字段中的待确认关键字,确认所显示字段中的正确字段;接收用户确认的正确字段,获得该字段的开始特征与结束特征,所述开始特征与结束特征组成所述网页的标识特征。

【技术特征摘要】
1.一种获得网页搜索关键字的标识特征的方法,其特征在于,所述方法包括:获得根据用户在网页中搜索的关键字生成的URL;从所述URL中提取至少一个由开始特征、待确认关键字及结束特征组成的字段;将解析得到的至少一个字段发送至用户界面显示,以使用户根据所搜索的关键字、及所显示字段中的待确认关键字,确认所显示字段中的正确字段;接收用户确认的正确字段,获得该字段的开始特征与结束特征,所述开始特征与结束特征组成所述网页的标识特征。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据接收到的所述网页的审计添加指令,获得所述网页的域名;在获得所述网页的标识特征的情况下,对应存储所述网页的域名与标识特征。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在接收到用户的远程更新指令、和/或审计服务器的远程更新请求的情况下,下载审计服务器中的网页域名与标识特征;对应存储所下载的网页域名与标识特征。4.一种基于权利要求2或3所述方法的网页搜索关键字提取方法,其特征在于,所述方法包括:解析用户设备生成的HTTP/GET报文,得到该报文中的网页域名与URL;在确认所述网页域名对应的网页为待审计网页的情况下,获得预先存储的所述网页域名对应的标识特征;在该URL中查找该标识特征的开始特征与结束特征;提取开始特征与结束特征间的数据,所述数据即为用户在该网页中搜索的关键字。5.根据权利要求4所述的方法,其特征在于,所述在确认所述网页域名对应的网页为待审计网页的情况下,获得预先存储的所述网页域名对应的标识特征,包括:在预先存储的网页域名中查找该报文中的网页域名;在查找到该网页域名的情况下,确定该网页域名对应的网页为待审计网页;获得与该网页域名预先对应存储的标识特征。6.一种获得网页搜索关键字的标识特征的装置,其特征在于,所述装置包括:URL获得模块,用于获得根据用户在...

【专利技术属性】
技术研发人员:魏方征
申请(专利权)人:杭州迪普科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1