【技术实现步骤摘要】
本专利技术涉及计算机应用
,具体涉及ー种针对含特殊字符的URL编码后的自动解码方法。
技术介绍
统一资源定位符(URL,Uniform Universal Resource Locator)也被称为网页地址,是因特网上标准的资源地址。在一些互联网应用中,为消除歧义,需要对URL进行编码。例如,含有中文、空格等特殊字符的URL通常会编码成含有“ %”和“ E6”等的字符长串。很多新闻站点的URL中会包含该条新闻的标题相关信息,恢复URL的原有形式在互联网信息采集领域有着非常重要的意义。可通过分析编码后的URL中特殊字符值的分布来判断编码方式,进而解码出原URL。但不同的编码方式存在交叉,有的字符值会在不同的编码方式中出现。
技术实现思路
本专利技术涉及一种针对含特殊字符的URL编码后的自动解码方法,所述方法包括:步骤SI,输入需要解码的编码后的URL字符串;步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有ー个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。本专利技术提供的第一优选实施例中:所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进 ...
【技术保护点】
一种针对含特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括:步骤S1,输入需要解码的编码后的URL字符串;步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。
【技术特征摘要】
1.一种针对含特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括: 步骤SI,输入需要解码的编码后的URL字符串; 步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串; 步骤S3,对所述得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串; 步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有ー个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式...
【专利技术属性】
技术研发人员:刘欣然,李焱,赵丽,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。