使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法技术方案

技术编号:8687930 阅读:233 留言:0更新日期:2013-05-09 07:47
本发明专利技术提供了用于识别将认为是对于用户或系统所有者而言淫秽或另外具有攻击性的语言的计算机实施的系统和方法。接收到多个攻击性文字,其中每个攻击性文字与标识该文字的攻击性的严重性评分相关联。接收文字串。计算在候选文字与多个攻击性文字中的每个攻击性文字之间的距离,且计算候选文字的多个攻击性评分,每个攻击性评分是基于在候选文字与该攻击性文字之间的距离和攻击性文字的严重性评分。关于候选文字是否为攻击文字做出判断,其中在多个攻击性评分中的最高攻击性评分超过攻击性阈值时认为候选文字为攻击性文字。

【技术实现步骤摘要】
【国外来华专利技术】使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法
本公开大体而言涉及用于识别将认为对于用户或系统所有者而言具有攻击性的语言的计算机实施的系统和方法。
技术介绍
淫秽(Obscenity)(在拉丁语中,obscenus,表示“污秽、令人厌恶、可憎的”)为最常用于描述攻击性的表达(文字、短语、图像、动作)的用语。淫秽的定义因文化不同,在单个文化内的社区之间以及在这些社区内的个人之间而不同。许多文化制定了法律来限定哪些认为是淫秽的或者另外具有攻击性,且常常使用审查制度来试图抑制或控制属于这些定义内的材料。各种国家对于他们作为法人允许他们的公民访问和在他们本地人口中宣传的材料类型具有不同的标准。这些国家许可的内容广泛不同,且某些对于违反限制的人具有极端的惩罚。但是,虽然访问这些类型的内容可能在一个社会中导致惩罚,该内容在另一社会中可能会被很好地接受。
技术实现思路
根据本文所提供的教导内容,提供了用于识别将认为对于用户或系统所有者而言淫秽或另外具有攻击性的语言的实施的系统和方法。举例而言,一种系统和方法可被配置为:使用一个或多个处理器来接收多个攻击性文字,其中在多个攻击性文字中的每个相应攻击性文字与识别该文字的攻击性的严重性评分相关联。接收文字串,其中候选文字选自所述文字串;且可计算在候选文字与多个攻击性文字中的每个攻击性文字之间的距离。可计算候选文字的多个攻击性评分,每个攻击性评分是基于在候选文字与该攻击性文字之间的距离和攻击性文字的严重性评分。对候选文字是否为攻击文字(offenderword)做出判断,其中在多个攻击性评分中的最高攻击性评分超过攻击性阈值时认为候选文字为攻击性文字。一种系统和方法还利用Levenshtein距离、Hamming距离、Damerau-Levenshtein距离、Dice系数、或Jaro-Winkler距离作为在候选文字与每个攻击性文字之间的距离。攻击性阈值由服务管理员设置;其中文字串从用户输入到服务;以及其中如果在文字串中的候选文字由于具有超过服务管理员所设置的攻击性阈值的攻击性评分而被识别为攻击文字,则拒绝从所述用户到服务的输入。该服务为内容评论入口,其中攻击性阈值基于下列之一来设置:被评论的内容所存在的类型;攻击性阈值相关联的特定内容;或者内容的第三方内容分级。该服务选自下列:留言板、内容评论入口、聊天室、电子布告栏系统、社交网站或者多人游戏。一种系统和方法可具有由服务的用户设置的攻击性阈值,其中文字串为从服务到用户的有意输出;其中包含因攻击性评分超过用户设置的攻击性阈值而被识别为攻击文字的文字串在显示给用户之前被修改。可通过删除文字串使得该文字串并不显示给用户或者通过删改(censor)文字串使得不显示攻击性文字来修改该文字串。攻击性文字的默认类别和默认攻击性阈值可基于用户当地的文化规范来设置。对用户设置最大攻击性阈值,其中用户不能设置高于最大攻击性阈值的攻击性阈值。一种系统和方法可根据下式来计算候选文字的攻击性评分:攻击性评分=A*((B-C)/B);其中A为在多个攻击性文字中的攻击性文字的严重性评分;其中B为所述攻击性文字的长度的函数;以及其中C为在候选文字与攻击性文字之间的计算的距离。多个攻击性文字和识别多个攻击性文字中每一个的严重性评分由用户、服务管理员、第三方或其组合来识别。识别多个攻击性文字可包括识别多个可能攻击性文字的子列表(其中每个子列表包括可能攻击性文字的类别),接收攻击性的文字的类别的标识,且识别多个攻击性文字为包含于被认为攻击性的文字类别中的一个或多个中的可能的攻击性文字。识别攻击性文字类别可由服务管理员或由服务的用户来识别。最高攻击性评分为下列之一:比较多个攻击性文字中的每一个与候选文字而计算的最小值攻击性评分;或者比较多个攻击性文字中的每一个与候选文字而计算的最大值攻击性评分。附图说明图1描绘了其中用户可与攻击性文字识别器互动的计算机实施的环境。图2为描绘用于识别文字串中的攻击性文字的攻击性文字识别器的框图。图3为描绘了攻击性文字列表的示例源或者对于攻击性文字列表上的文字的贡献。图4A和图4B描绘了示例攻击性文字列表。图5为描绘了示例攻击性文字识别器的选定细节的框图。图6为利用Levenshtein距离计算来描绘攻击性文字识别器的框图。图7为描绘用作输入过滤器的攻击性文字识别器的框图。图8为描绘用作输出过滤器的攻击性文字识别器的框图。图9为描绘包括于攻击性文字列表上的文字标识的框图。图10为示例用户界面,其中,用户可选择用户认为是攻击性的文字类别来生成攻击性文字列表且选择攻击性阈值。图11为描绘了攻击性文字识别器的框图,攻击性文字识别器利用用户位置阈值最大值来设置用于标志攻击文字的阈值。图12描绘了示例界面,其中攻击性文字识别器可用作输入过滤器。图13描绘了示例用户界面,其中攻击性文字识别器可用作输出过滤器。图14为描绘了识别文字串中的攻击文字的方法的流程图。具体实施方式图1描绘了其中用户102可与攻击性文字识别器104互动的计算机实施的环境。攻击性文字识别器104提供用于节制读者或媒体论坛的提供商认为是攻击性的语言的框架。内容管理系统可用于多种情形中。例如,留言板操作者可配置此留言板的攻击性阈值。用户留言板帖子可被解析,帖子的文字被详细检查攻击性阈值,且包含超过攻击异性阈值的一个或多个用语的帖子可被拒绝、修改以节制攻击性(例如,符号的使用可用于删改攻击性用语:####、@%^#等)或以其它方式节制。在另一示例中,诸如留言板的系统的用户可配置表示其对攻击性语言的个人敏感性的攻击性阈值。用户请求查看的留言板张贴中的内容然后可在通过帖子呈现给用户之前被详细检查。包含超过用户攻击性阈值的一个或多个用语的帖子可被隐藏不让用户看到,可给出警告,包括用户查看包括攻击性语言的帖子的链接,或者可修改该帖子以节制攻击性,诸如通过使用符号来删改有异议的用语。在另一示例中,攻击性文字识别器104可用于到系统的输入和自系统的输出中。例如,在允许张贴内容评论(诸如新发行的电影的评论)的在线服务中,网站所有者可设置将应用的一个或多个攻击性阈值(例如对于内容评论服务的用户帖子)。例如,网站所有者可在包含适合于儿童的主题的电影(例如,G级电影)类别的评论中对于认为攻击性的用语设置很低阈值,而可对于包括更成人主题的电影类别(例如,R级电影)设置更高的攻击性阈值。然后类别攻击性阈值可应用于用户评论,其中包含认为对于该类别而言是攻击性的用语的帖子可被拒绝或以其它方式节制。在内容评论服务处的输入过滤器可与一个或多个额外个别用户攻击性过滤器协同工作。个别用户可为其查看体验来标识个人化的攻击性阈值。然后将呈现给该用户的内容评论的文本可在向该用户呈现评论之前被仔细审查。包含超越了用户攻击性阈值的一个或多个用语的帖子可隐藏不让看到或以其它方式节制。攻击性文字识别器也可用于多种其它情形。例如,在社交网站,用户能向其自己的“墙”设置帖子中用语的攻击性阈值,同时也设置应用于自该社交网站呈现给该用户的内容的个人攻击性阈值。在另一示例中,在公共图书馆,一般的公共赞助人攻击性阈值可设置为低阈值,而图书管理员可被允许经由更少限制阈值来设置更松的过滤器。在另一示例中,在大型多人在线角色本文档来自技高网...
使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.01.29 US 12/696,9911.一种用于文字攻击性检测和处理的方法,其包括:使用一个或多个处理器来接收多个攻击性文字,其中在所述多个攻击性文字中的每个相应攻击性文字与标识该相应文字的攻击性的严重性评分相关联;接收文字串,其中候选文字选自所述文字串;对于在所述多个攻击性文字中的每个相应攻击性文字,计算候选文字与所述相应攻击性文字之间的距离;计算所述候选文字的多个攻击性评分,所述多个攻击性评分中的每个攻击性评分基于(i)在所述候选文字与所述多个攻击性文字中的攻击性文字之间的所计算的距离和(ii)所述攻击性文字的严重性评分;以及基于所述候选文字的多个攻击性评分中的最高评分是否超过了攻击性阈值来判断所述候选文字是否为攻击文字;其中,候选文字的攻击性评分根据下式之一来计算:攻击性评分=A*((B-C)/B);攻击性评分=A*((B-(1/C)/B);攻击性评分=Max(((A-C)/A),0);以及攻击性评分=(((B-C)/B)>T);其中,A为在所述多个攻击性文字中的攻击性文字的严重性评分;B为所述攻击性文字的长度;以及C为在所述候选文字与所述攻击性文字之间的计算的距离;T为攻击性阈值。2.根据权利要求1所述的方法,其特征在于,所述多个攻击性文字中的每个文字和所述文字串中的每个文字包括简写。3.根据权利要求1所述的方法,其特征在于,所述距离被计算为:Levenshtein距离、Hamming距离、Damerau-Levenshtein距离、Dice系数、相似性指数、或Jaro-Winkler距离。4.根据权利要求1所述的方法,其特征在于,所述攻击性阈值由服务管理员设置;其中所述文字串从用户输入到服务;以及其中如果在所述文字串中的候选文字由于具有超过所述服务管理员所设置的攻击性阈值的攻击性评分而被识别为攻击文字,则拒绝自所述用户到所述服务的输入。5.根据权利要求4所述的方法,其特征在于,所述服务为内容评论入口,且其中所述攻击性阈值基于下列之一来设置:其中存在被评论的内容的内容分组;所述攻击性阈值相关联的特定内容;以及内容的第三方内容分级。6.根据权利要求5所述的方法,其特征在于,所述内容分组包括主题的特定分类,类型,地理原产地,其中所述地理包括国家、州、城市、公国或者它们的区域或子区域的集合,专业或政府认证或分级的组、或行业节日或事件精选。7.根据权利要求4所述的方法,其特征在于,所述服务选自下列的组:留言板、内容评论入口、聊天室、电子布告栏系统、社交网站和多人游戏。8.根据权利要求1所述的方法,其特征在于:所述攻击性阈值由服务用户来设置;所述文字串为从所述服务到所述用户的有意输出;以及包含因攻击性评分超过所述用户设置的所述攻击性阈值而被识别为攻击文字的文字串在显示给所述用户之前被修改。9.根据权利要求8所述的方法,其特征在于,根据下列之一来修改所述文字串:删除所述文字串使得所述文字串并不显示给所述用户;从所述文字串删除所述攻击性文字使得所述攻击性文字不显示给所述用户;删改所述文字串使得所述文字串并不显示给所述用户;或者,从所述文字串删改所述攻击性文字使得所述攻击性文字不显示给所述用户。10.根据权利要求8所述的方法,其特征在于,所述多个攻击性文字和攻击性阈值是基于对所述用户所确定的文化规范来设置。11.根据权利要求8所述的方法,其特征在于,所述多个攻击性文字和攻击性阈值基于政府机构限定的定义来设置,所述政府机构对于用户或者与所述用户相关联的非政府机构具有管辖权。12.根据权利要求8所述的方法,其特征在于,对于用户设置最大攻击性阈值,且其中所述用户不能设置高于所述最大攻击性阈值的攻击性阈值。13.根据权利要求1所述的方法,其特征在于,包含因攻击性评分超过所述攻击性阈值而被识别为攻击文字的文字串被拒绝输入到系统内。14.根据权利要求1所述的方法,其特征在于,所述多个攻击性文字和标识所述多个攻击性文字中每一个的严重性评分由用户、服务管理员、第三方或其任何组合来标识。15.根据权利要求1所述的方法,其特征在于,所述最高攻击性评分为下列之一:比较所述多个攻击性文字中的每一个与所述候选文字而计算的最小值攻击性评分;或者比较所述多个攻击性文字中的每一个与所述候选文字而计算的最大值攻击性评分。16.一种用于文字攻击性检...

【专利技术属性】
技术研发人员:约瑟夫·L·斯皮尔斯
申请(专利权)人:因迪普拉亚公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1