基于相似字组的国际化域名注册方法及系统技术方案

技术编号:8565383 阅读:442 留言:0更新日期:2013-04-11 07:46
本发明专利技术提供一种基于相似字组的国际化域名注册方法及系统。通过对某种语言的字符根据相近或相似的特点进行分组,形成字组,进而制定国际化域名相似字对照表;该表第一栏的元素是相似字组,其它栏是建议字栏,可以根据需要设置多个建议字栏。注册时,在第一栏找到被注册的每个字符所属的字组,然后找出每个字组所对应的建议字,进而生成建议域名字段,用于使用;其他域名字段隐含在复合域名字段包里,用于保留,或者用于将来的激活使用。依据本发明专利技术,可以极大的节省储存空间和计算资源。

【技术实现步骤摘要】

本专利技术属于信息
,涉及一种域名注册技术,具体涉及一种新型的基于相似字组的国际化域名注册方法及系统
技术介绍
国际化域名在技术协议上允许多语种的字符出现在域名里,某些语种里可能存在相似或相近的字符。比如中文存在简繁体(变体)的问题,某些在字符集中分配不同码位的中文字符可能被认为是同一个字符。例如发U+53D1,發U+767C,発U+767A,髪U+9AEE,髪U+9AEA。中文存在简繁体(变体)的问题,可能被用来进行基于标识符的钓鱼。现有的方法通过注册表的方法,分别生成建议标识符和保留标识符的方法,使所有相近或相似的标识符授权给同一个注册用户使用。现有的方法都是需要生成所有的建议域名字段和保留域名字段,但是这种方法存在的严重的弊端,生成的保留域名字段可能过多,而无法在有限的空间里存储这些域名字段。现行的国际化域名注册机制,尤其是中文域名注册机制,中文域名注册管理机构根据RFC3743注册算法制定了中文域名异体字表。RFC3743的具体字表原则如下[I]第一栏中所有字符的集合构成了中文的有效字集合,称为原型字,用来检查用户注册域名的合理性。这一栏作为索引来检查出现在中文域名中要被处理的字符。一般认为有效字集合定义了中文的文字表示。[2]第二栏包括的是和第一栏的Unicode字符编码字符相对应的建议字。这些建议字被用来生成建议中文域名,这些建议中文域名应是可被解析的。在通常情况下,所有的建议中文域名在相关的ZONE文件中被激活,从而当域名查询它们的时候应可得到正确解析。[3]第三栏包括的是与有效字相对应的异体字。这些异体字用来产生异体中文域名,然后被保留下来。这些异体中文域名的注册、激活通常由域名持有人决定,但是受ZONE管理的本地策略的制约。每一栏中的每个条目应包括一个或多个字符,这些字符用通用字符编码表中的数字字符形式表示,数字字符后接可选的带圆括号的参考值。第一栏,即有效字栏,只有一个字符,而其他栏可能有多个。任何一行都应可用‘#,开头的注释结束。根据目前的注册政策,所有生成的异体中文域名,都将被保留,所有生成的建议中文域名都将用于放在DNS ZONE里。由于跟原型字相对应的异体字经常有多个,设所注册的中文域名字段共有η个字符,如果每个原型字分别有X1, X2,X3……Xlri, Xn个异体字,根据排列组合原理,每个原型字将对应有P (X,I)种组合方法,那么根据RFC3743的注册算法将会生成的组合方法的种类为P (X1, I) *P (X2, I) *P (X3, I) *……P (Xn-!, I) *Ρ (Χη, I)。进一步假设,每个原型字符对应有两个异体字符,那么上述公式简化为[P (2,I)]η=2η,即产生2η个异体中文域名。当η = 7时,异体域名组合的总量不大于128,但是当η >30时,将有约1,000,000,000,000个中文异体域名组合。所以当注册的中文域名超过30个字符的时候,仅仅注册一个中文域名,在极端情况下就需要产生1,000,000,000,000个中文异体域名组合,至少需要1000G的数据,通常的域名注册服务器的存储空间都是小于500G的,仅注册一个域名就需要1000G的域名,如果需要注册1000个域名,则需要IO6G的存储空间,至少需要2000块服务器硬盘。以目前有限的计算成本和技术无法存储这样巨量的数据。因此RFC3743的域名注册算法需要改进。另外,RFC3743方法使相近或相似的字出现在不同的列,不利于字表的更新。如果字表更新,需要提取字表中所有相关的字组,从而容易产生错误。
技术实现思路
本专利技术的目的在于提供一种新型的国际化域名的注册方法及系统,可以极大的节省存储空间和计算资源,更方便的开展注册服务。为实现上述目的,本专利技术采用如下技术方案一种国际化域名注册方法,其步骤包括I)选定某种语言,并选出与该语言关联的可以在该语言下注册的字符集;2)根据视觉相似度将所述字符集中的字符分成若干相似字符组,进而建立所述语言的国际化域名相似字对照表,该表包括相似字组栏和若干建议字栏;3)用户在客户端输入待注册的国际化域名字段,国际化域名注册服务器根据所述国际化域名相似字对照表找出该国际化域名字段中每个字符对应的相似字组;4)国际化域名生成器找出与所述相似字组对应的建议字,进而生成建议域名字段; 5 )根据所述建议域名字段,所述国际化域名生成器为在特定的DNS ZONE中成功注册的原型域名字段创建复合域名字段包,并存入国际化域名注册数据库。进一步地,加入所述国际化域名相似字对照表中的字符与其所在字组中其它字符的视觉相似度不小于70%。进一步地,所述国际化域名相似字对照表包括表头部分和表体部分,其中表头部分规定参考及版本信息;表体部分的第一栏为相似字组栏,其它栏分别为各建议字栏,如第I建议字、第2建议字、……、第K建议字。第一栏的每个条目包含一组字,这组字里至少有一个字符,其它栏里每个条目有且只有一个字符。如果建议字栏的建议字由多个码位组成,则码位以空格隔开;每一个码位都有一个对应的参考号证明该条目来源正确。进一步地,对不同栏生成的建议域名取并集,然后再加入DNS ZONE中。进一步地,所述复合域名字段包包括被注册的原型域名字段、与原型域名字段绑定的相关语言、绑定的相似字对照表的版本、复合域名字段和被加入到DNS ZONE文件中被激活的域名字段。进一步地,所述复合域名字段包具有原子特性,其中任何一个域名字段的转移或修改以复合域名字段包作为整体进行。一种实现上述方法的国际化域名注册系统,其特征在于,包括国际化域名相似字表储存器,负责生成并存储国际化域名相似字对照表;相似度验证服务器,连接所述国际化域名相似字表储存器,负责验证加入所述国际化域名相似字对照表中的字是否符合相似度要求;注册客户端,负责提交用户的国际化域名注册请求;国际化域名注册服务器,分别连接所述国际化域名相似字表储存器和所述注册客户端,负责接收注册请求,并验证待注册的国际化域名中的字符是否符合所述国际化域名相似字对照表的要求;国际化域名生成器,连接所述国际化域名注册服务器,负责生成建议域名及复合域名字段包;国际化域名注册数据库,分别连接所述国际化域名注册服务器和所述国际化域名生成器,负责存储注册成功的域名及复合域名字段包。本专利技术对某种语言的字符根据相近或相似的特点进行分组,形成字组,进而制定国际化域名相似字对照表。该表第一栏的元素是字组,第二栏是建议字,其他栏也是建议字,可以根据需要分别增加第三栏,第四栏等。注册时在第一栏找到被注册的每个字符所属的字组,然后找出每个字组所对应的建议字,并根据算法生成建议域名字段,用于使用;其他域名字段隐含在本技术的复合域名字段包里,用于保留,或者用于将来的激活使用。异体字表的第一栏的元素是字组,普通的异体字表是单个字符。本专利技术只生成建议域名字段,提出了复合域名字段的算法。依据本算法,可以极大的节省储存空间和计算资源。附图说明图1是本专利技术实施例的国际化域名注册系统的网络架构示意图。图2是本专利技术实施例的国际化域名注册方法的步骤流程图。具体实施例方式下面通过具体实施例,并配合附图,对本专利技术做详细的说明。图1是本实施例的国际化域名注册系统的网络架构示意图。如该本文档来自技高网
...

【技术保护点】
一种国际化域名注册方法,其步骤包括:1)选定某种语言,并选出与该语言关联的可以在该语言下注册的字符集;2)根据视觉相似度将所述字符集中的字符分成若干相似字符组,进而建立所述语言的国际化域名相似字对照表,该表包括相似字组栏和若干建议字栏;3)用户在客户端输入待注册的国际化域名字段,国际化域名注册服务器根据所述国际化域名相似字对照表找出该国际化域名字段中每个字符对应的相似字组;4)国际化域名生成器找出与所述相似字组对应的建议字,进而生成建议域名字段;5)根据所述建议域名字段,所述国际化域名生成器为在特定的DNS?ZONE中成功注册的原型域名字段创建复合域名字段包,并存入国际化域名注册数据库。

【技术特征摘要】
1.一种国际化域名注册方法,其步骤包括 1)选定某种语言,并选出与该语言关联的可以在该语言下注册的字符集; 2)根据视觉相似度将所述字符集中的字符分成若干相似字符组,进而建立所述语言的国际化域名相似字对照表,该表包括相似字组栏和若干建议字栏; 3)用户在客户端输入待注册的国际化域名字段,国际化域名注册服务器根据所述国际化域名相似字对照表找出该国际化域名字段中每个字符对应的相似字组; 4)国际化域名生成器找出与所述相似字组对应的建议字,进而生成建议域名字段; 5)根据所述建议域名字段,所述国际化域名生成器为在特定的DNSZONE中成功注册的原型域名字段创建复合域名字段包,并存入国际化域名注册数据库。2.如权利要求1所述的方法,其特征在于加入所述国际化域名相似字对照表中的字符与其所在字组中其它字符的视觉相似度不小于70%。3.如权利要求1所述的方法,其特征在于所述国际化域名相似字对照表包括表头部分和表体部分,其中表头部分规定参考及版本信息;表体部分的第一栏为相似字组栏,其它栏分别为各建议字栏。4.如权利要求3所述的方法,其特征在于如果建议字栏的建议字由多个码位组成,则码位以空格隔开;每一个码位都有一个对应的参考号证明该条目来源正确。5.如权利要求3所述的方法,其特征在于所述第一栏的每个条目包含一组字,这组字里至少有一个字...

【专利技术属性】
技术研发人员:姚健康毛伟王伟沈烁孔宁
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1