当前位置: 首页 > 专利查询>刘文印专利>正文

一种为统一码字符分组着色的方法及系统技术方案

技术编号:3499590 阅读:340 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种识破利用统一码进行欺诈的方法及系统,其中,该系统包括:分组模块,用于确定由统一码表示的文本和/或链接中的字符所属统一码分区;及着色模块,用于对所述文本和/或链接中的字符根据其所属的不同统一码分区及其在其统一码字符相似索引表中的排序位置选用不同的颜色显示其背景或其前景。本发明专利技术通过对由统一码字符构成的文本、链接行着色来帮助用户区分文本或者链接中掺杂的不同的统一码分区的字符及相似的字符,从而可防止犯罪分子利用统一码字符的视觉、语义相似性进行网络欺诈。

【技术实现步骤摘要】

本专利技术涉及一种信息安全领域的计算机技术,特别是涉及一种能识破利用统一码(Unicode)的字符或由统一码的字符组成的文本进行(身份)欺诈的方法及系统。
技术介绍
Unicode是为了解决信息技术中字符表达的局限性而出现的一种技术。Unicode字符集中几乎包括了所有目前人类自然语言中所需要的符号。然而,Unicode字符集中有非常多的字形相同或相似,语义上相同或相似的字符。比如字符“a”“b”“c”会有多个对应的字形或字义相似的其它字符存在,如下表1所示(在下表1中每个字符下面是其相对应的十六进制的Unicode代码)。 统一码在互联网上的广泛应用带来了一些安全问题,特别是一些人可以利用统一码的字符及文本进行(身份)欺诈。由于统一码中有非常多的相似字符,甚至是视觉上一模一样的字符,“黑客”或“网钓者”可以利用这一点,即利用相似的字符替代常见的字符来迷惑用户的眼睛,如冒用一些知名网站或网名,进而进行网上欺骗。例如,paypal.com中的第二个a的统一码是0x0430而不是常用的0x0061或ASCII0x61,但由于统一码为0x0430的a与常用的统一码为0x0061的a在形状上很相似,普通的用户基本无法区分,因此容易将paypal.com(第二个a的统一码是0x0430)误认为是paypal.com(第二个a的统一码是0x0061),而在此假冒网页上泄露了各种重要的信息如银行卡及密码等。又如,诈骗者利用″囯″与″国″的相似,用中囯银行.com冒名中国银行.com,来进行网上欺骗。其中,这里所述的“常用”是相对于“生僻”而言的,如″国″是常用字,而″囯″是生僻字。按照使用的频率,可将汉字划分为常用或不常用。其中,汉字中的常用字包括一级字库3千多和二级字库3千多,一级字比二级字库常用得多,也即是被使用的频率高得多。类似地,其它的语言字符如英文字符按照其使用频率的高低也有常用与不常用的区分,如0x0061是最常用的字符a的统一码,0x0430比较少用。发送垃圾邮件者也可能利用这个方法来绕开垃圾过滤器的过滤。骗子也可以注册与名人的网名极其相似的网名来假冒名人行骗。在Internet上诱骗网站通常都是利用网址和网页本身的视觉相似性来进行诱骗。以往用户仅仅依靠小心谨慎,是有可能辨别出假冒网站的链接与真实链接不同的。而随着统一码的出现,人类仅靠肉眼是很难分辨出两个由统一码字符构成的相似链接的区别,例如上文所述的paypal例子。因此用计算机代替人眼来识别由统一码组成的相似网址和文本是迫在眉睫的。但目前现有技术中还不存在可以准确友好地对用户给出类似的提示的方法。
技术实现思路
本专利技术所要解决的技术问题在于提供一种识破利用统一码进行欺诈的方法及系统,用于帮助用户或系统管理员识破利用统一码进行网络欺诈的行为。为了实现上述目的,本专利技术提供了一种识破利用统一码进行欺诈的方法,其特征在于,包括分组步骤,确定由统一码表示的文本和/或链接中的字符所属统一码分区;及着色步骤,对所述文本和/或链接中的字符根据其所属的不同统一码分区及其在其统一码字符相似索引表中的排序位置选用不同的颜色显示其背景或其前景。所述的识破利用统一码进行欺诈的方法,其中,所述统一码分区为标准划分的统一码语言区域、对标准的统一码语言区域进一步划分形成的语言区域子区、或按预设方式对所有统一码划分形成的分区。所述的识破利用统一码进行欺诈的方法,其中,根据统一码分区数目、各统一码分区字符的使用频率、当前可用颜色集合为字符所属的每一统一码分区分配一个基本颜色。所述的识破利用统一码进行欺诈的方法,其中,所述统一码字符相似索引表为与所述字符的相似度大于或等于一相似度阈值的字符集合或列表,并按字符的地址、相似度或使用频率的方式进行排序索引。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括对所述字符是否为使用正常的字符或使用异常的字符进行判断的步骤。所述的识破利用统一码进行欺诈的方法,其中,根据所述字符所在上下文判断所述字符与前后字符所组成的词是否被收录在词库中来判断所述字符为使用正常的字符还是使用异常的字符,若被收录在词库中,则所述字符为使用正常的字符;若未被收录在词库中或词库为空时,则所述字符为使用异常的字符。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括当所述字符为使用正常的字符时,用其所属的统一码分区的基本颜色对所述字符进行着色;当所述字符为使用异常的字符时,选取二级区分颜色集之中的颜色对所述字符进行着色,其中,所述二级区分颜色集为除去所述各统一码分区对应的基本颜色后的画板颜色集合。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括相似字符查找步骤,查找一字符的统一码字符相似索引表中与该字符相似的相似字符列表;及相似字符着色步骤,根据该字符在所述相似字符列表中按词频排序的排名序号从所述二级区分颜色集之中为其选取进行着色时的颜色。所述的识破利用统一码进行欺诈的方法,其中,所述相似字符查找步骤进一步包括计算所有统一码字符两两之间的相似度;根据所述相似度为每一统一码字符建立统一码字符相似索引表。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括按照颜色的视觉距离,从视觉可识别(即,可区分)的颜色中选择不同的颜色组成一画板颜色集合;及从所述画板颜色集合中选择不同的颜色显示所述不同统一码分区的字符或其背景。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括对所述画板颜色集合中的颜色进行排序形成一序列,使得在该序列中任一颜色与其前面的所有颜色的最小视觉距离都不大于位于其前的任一颜色与其前面的所有颜色的最小视觉距离;及对需要着色的统一码分区按不同语言统一码分区中的字符在全世界文本中的使用频率进行降序排序或按统一码的所有分区的起始地址进行升序排序,并按此顺序从已排序的画板颜色集合中挨个选取颜色赋给所述每一需要着色的字符的统一码分区作为其基本颜色。所述的识破利用统一码进行欺诈的方法,其中,所述着色步骤进一步包括对整个着色系统设置给定的背景色和前景色;及给定前景色和背景色后,对剩下的颜色按预设的排序方式排序或按与所述画板颜色集合中的颜色相同的排序方式排序,并按此排序依次赋给所述文本和/或链接中的每个字符的所属统一码分区,作为基本颜色,其余颜色作为所述二级区分颜色集用于对每个分区内部的相似字符的着色。为了实现上述目的,本专利技术还提供了一种识破利用统一码进行欺诈的系统,其特征在于,包括分组模块,用于确定由统一码表示的文本和/或链接中的字符所属统一码分区;及着色模块,用于对所述文本和/或链接中的字符根据其所属的不同统一码分区及其在其统一码字符相似索引表中的排序位置选用不同的颜色显示其背景或其前景。所述的识破利用统一码进行欺诈的系统,其中,所述统一码分区为标准的统一码语言区域、对标准的统一码语言区域进一步划分形成的子区、或按预设方式对所有统一码划分形成的分区。所述的识破利用统一码进行欺诈的系统,其中,根据统一码分区数目、各统一码分区字符的使用频率、当前可用颜色集合为字符所属的每一统一码分区分配一个基本颜色。所述的识破利用统一码进行欺诈的系统,其中,所述统一码字符相似索引表为与所述字符的相似度大于或等于一相似度本文档来自技高网
...

【技术保护点】
一种识破利用统一码进行欺诈的方法,其特征在于,包括:分组步骤,确定由统一码表示的文本和/或链接中的字符所属统一码分区;及着色步骤,对所述文本和/或链接中的字符根据其所属的不同统一码分区及其在其统一码字符相似索引表中的排序位置选用不同的颜色显示其背景或其前景。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘文印
申请(专利权)人:刘文印
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1