一种针对含特殊字符的URL编码后的自动解码方法技术

技术编号:8682802 阅读:209 留言:0更新日期:2013-05-09 02:44
本发明专利技术提供一种针对含特殊字符的URL编码后的自动解码方法,包括:步骤S1.输入需要解码的编码后的URL字符串;步骤S2.按照不同的编码方式对编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3.对得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4.将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有一个与需要解码的编码后的URL字符串相同,取编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串,精确得到需要解码的编码后的URL字符串的编码方式进行解码。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,具体涉及ー种针对含特殊字符的URL编码后的自动解码方法
技术介绍
统一资源定位符(URL,Uniform Universal Resource Locator)也被称为网页地址,是因特网上标准的资源地址。在一些互联网应用中,为消除歧义,需要对URL进行编码。例如,含有中文、空格等特殊字符的URL通常会编码成含有“ %”和“ E6”等的字符长串。很多新闻站点的URL中会包含该条新闻的标题相关信息,恢复URL的原有形式在互联网信息采集领域有着非常重要的意义。可通过分析编码后的URL中特殊字符值的分布来判断编码方式,进而解码出原URL。但不同的编码方式存在交叉,有的字符值会在不同的编码方式中出现。
技术实现思路
本专利技术涉及一种针对含特殊字符的URL编码后的自动解码方法,所述方法包括:步骤SI,输入需要解码的编码后的URL字符串;步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有ー个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。本专利技术提供的第一优选实施例中:所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进行解码是根据常用的编码字符集进行解码的;在中文环境下,按照GBK、Big5和UTF-8不同的编码方式进行解码。本专利技术提供的第二优选实施例中:如果所述步骤S2中按照所述常用的编码字符集进行不同方式的解码后,所述步骤S4中对比没有得到与所述需要解码的编码后的URL字符串相同的编码后的URL字符串,采用与所述步骤S2中不同的编码方式进行步骤S2-S4的操作。本专利技术提供的一种针对含特殊字符的URL编码后的自动解码方法的有益效果包括:本专利技术提供的一种针对含特殊字符的URL编码后的自动解码方法,针对含特殊字符的编码后的URL字符串,在URL字符串编码方式不明确并且不同的编码方式存在交叉不容易判断编码方式的情况下,比较精确的得到编码方式进行解码。附图说明如图1所示为本专利技术提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图。具体实施例方式本专利技术提供一种针对含特殊字符的URL编码后的自动解码方法,该方法包括:步骤SI,输入需要解码的编码后的URL字符串。步骤S2,按照不同的编码方式对该编码后的URL字符串进行解码,得到不同的URL字符串。步骤S3,对步骤S2中得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串。步骤S4,将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有ー个与需要解码的编码后的URL字符串相同,取该编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串。步骤S2中按照不同的编码方式对编码后的URL字符串进行解码是根据常用的编码字符集进行解码的,比如在中文环境下:按照GBK、Big5和UTF-8等不同的编码方式进行解码。如果按照常用的编码字符集进行不同方式的解码后,步骤S4中对比没有得到与需要解码的编码后的URL字符串相同的`编码后的URL字符串,那么可以采用其他不常用的编码方式进行步骤S2-S4的操作。如图1所示为本专利技术提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图,需要解码的编码后的URL字符串为:“..%ACF%AAv…”,假设GBK、Big5和Utf-8等不同的编码方式后进行相应的解码,得到不同的URL字符串,在按照其对应的解码方式进行编码得到不同的URL字符串,将得到的不同的URL字符串与“..%ACF%AAv…”进行对比,得到Big5编码方式下得到的URL字符串与“..%ACF%AAv…”相同,则取Big5编码方式下解码得到的“..政治…”为本实施例中需要解码的编码后的URL字符串经过自动解码得到的URL字符串。GBK编码与Big5编码的字符集有交叉,导致根据编码值的分布范围求原字符的编码方式在有些情况下行不通;URL中的特殊字符一般不止ー个,实际中所有的特殊字符在两种字符集中的编码值都相同的概率非常小,该情况下,只能通过肉眼并结合已有经验判断原URL值,保证了本方法的有效性。最后应当说明的是:以上实施例仅用以说明本专利技术的技术方案而非对其限制,尽管參照上述实施例对本专利技术进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本专利技术的具体实施方式进行修改或者等同替换,而未脱离本专利技术精神和范围的任何修改或者等同替换,其均应涵盖在本专利技术的权利要求范围当中。本文档来自技高网...
一种针对含特殊字符的URL编码后的自动解码方法

【技术保护点】
一种针对含特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括:步骤S1,输入需要解码的编码后的URL字符串;步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。

【技术特征摘要】
1.一种针对含特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括: 步骤SI,输入需要解码的编码后的URL字符串; 步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串; 步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串; 步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有ー个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式...

【专利技术属性】
技术研发人员:刘欣然李焱赵丽
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1