【技术实现步骤摘要】
一种信息匹配方法和装置
本专利技术涉及网络
,尤其是涉及一种信息匹配方法和装置。
技术介绍
随着社会不断发展,互联网成为人们生活中必不可少的一部分,用户对在互联网上使用搜索引擎所获取的信息的准确度的要求也越来越高。在进行搜索引擎优化(SearchEngineOptimization,SEO)的关键词排名分析时,根据用户输入的词组以及统一资源定位符(UniformResourceLocator,URL)在指定的搜索引擎中通过爬虫程序获取该词组的链接信息,然后将链接信息与用户输入的统一资源定位符(UniformResourceLocator,URL)进行匹配。现有技术中,通用的匹配过程为:首先将用户输入的URL与爬取到的URL进行预处理,其次再将用户输入的URL与爬取到的URL进行比较,最后若两者相等则匹配结束。搜索引擎获取信息就是通过预处理判断URL的合法性,预处理后,直接根据用户的输入URL直接进行匹配。其中,URL预处理主要是判断URL的合法性,是否合法一般采用正则表达式来对URL各部分进行匹 ...
【技术保护点】
1.一种信息匹配方法,其特征在于,所述方法包括:/n获取用户输入的词组和第一统一资源定位符URL信息,以及通过爬虫技术在搜索引擎中获取的与该词组相关的第二URL信息;/n统一所述第一URL信息和所述第二URL信息的符号格式;/n去除所述第一URL信息和所述第二URL信息中包含的协议、用户名和密码;/n对齐所述第一URL信息和所述第二URL信息的剩余信息中端口信息和路径信息之间的连接字符,以所述连接字符为界将所述剩余信息划分为两部分,所述连接字符左侧为第一部分,所述连接字符右侧为第二部分;/n匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一UR ...
【技术特征摘要】
1.一种信息匹配方法,其特征在于,所述方法包括:
获取用户输入的词组和第一统一资源定位符URL信息,以及通过爬虫技术在搜索引擎中获取的与该词组相关的第二URL信息;
统一所述第一URL信息和所述第二URL信息的符号格式;
去除所述第一URL信息和所述第二URL信息中包含的协议、用户名和密码;
对齐所述第一URL信息和所述第二URL信息的剩余信息中端口信息和路径信息之间的连接字符,以所述连接字符为界将所述剩余信息划分为两部分,所述连接字符左侧为第一部分,所述连接字符右侧为第二部分;
匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一URL信息的第二部分和所述第二URL信息的第二部分,都满足预设匹配条件,确定所述第一URL信息和所述第二URL信息匹配。
2.根据权利要求1所述的方法,其特征在于,所述统一所述第一URL信息与所述第二URL信息的符号格式,包括:
将所述第一URL信息与所述第二URL信息中的符号格式统一调整为小写格式或大写格式。
3.根据权利要求1所述的方法,其特征在于,所述匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一URL信息的第二部分和所述第二URL信息的第二部分,都满足预设匹配条件,确定所述第一URL信息和所述第二URL信息匹配,包括:
匹配所述第一URL信息的第一部分和所述第二URL信息的第一部分,以及匹配所述第一URL信息的第二部分和所述第二URL信息的第二部分;
若所述第二URL信息的第一部分以所述第一URL信息的第一部分开头,所述第二URL信息的第二部分以所述第一URL信息的第二部分结尾,确定所述第一URL信息和所述第二URL信息匹配。
4.根据权利要求3所述的方法,其特征在于,
若所述二URL信息的第一部分未以所述第一URL信息的第一部分开头,或所述第二URL信息的第二部分未以所述第一URL信息的第二部分结尾,确定所述第一URL信息和所述第二URL信息不匹配。
5.根据权利要求1-4中任一项所述的方法,其特征在于,还包括...
【专利技术属性】
技术研发人员:梁洪波,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。