使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法技术方案

技术编号：8687930 阅读：239 留言：0更新日期：2013-05-09 07:47

本发明专利技术提供了用于识别将认为是对于用户或系统所有者而言淫秽或另外具有攻击性的语言的计算机实施的系统和方法。接收到多个攻击性文字，其中每个攻击性文字与标识该文字的攻击性的严重性评分相关联。接收文字串。计算在候选文字与多个攻击性文字中的每个攻击性文字之间的距离，且计算候选文字的多个攻击性评分，每个攻击性评分是基于在候选文字与该攻击性文字之间的距离和攻击性文字的严重性评分。关于候选文字是否为攻击文字做出判断，其中在多个攻击性评分中的最高攻击性评分超过攻击性阈值时认为候选文字为攻击性文字。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法
本公开大体而言涉及用于识别将认为对于用户或系统所有者而言具有攻击性的语言的计算机实施的系统和方法。
技术介绍
淫秽（Obscenity）（在拉丁语中，obscenus，表示“污秽、令人厌恶、可憎的”）为最常用于描述攻击性的表达（文字、短语、图像、动作）的用语。淫秽的定义因文化不同，在单个文化内的社区之间以及在这些社区内的个人之间而不同。许多文化制定了法律来限定哪些认为是淫秽的或者另外具有攻击性，且常常使用审查制度来试图抑制或控制属于这些定义内的材料。各种国家对于他们作为法人允许他们的公民访问和在他们本地人口中宣传的材料类型具有不同的标准。这些国家许可的内容广泛不同，且某些对于违反限制的人具有极端的惩罚。但是，虽然访问这些类型的内容可能在一个社会中导致惩罚，该内容在另一社会中可能会被很好地接受。
技术实现思路
根据本文所提供的教导内容，提供了用于识别将认为对于用户或系统所有者而言淫秽或另外具有攻击性的语言的实施的系统和方法。举例而言，一种系统和方法可被配置为：使用一个或多个处理器来接收多个攻击性文字，其中在多个...
使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.01.29 US 12/696,9911.一种用于文字攻击性检测和处理的方法，其包括：使用一个或多个处理器来接收多个攻击性文字，其中在所述多个攻击性文字中的每个相应攻击性文字与标识该相应文字的攻击性的严重性评分相关联；接收文字串，其中候选文字选自所述文字串；对于在所述多个攻击性文字中的每个相应攻击性文字，计算候选文字与所述相应攻击性文字之间的距离；计算所述候选文字的多个攻击性评分，所述多个攻击性评分中的每个攻击性评分基于(i)在所述候选文字与所述多个攻击性文字中的攻击性文字之间的所计算的距离和(ii)所述攻击性文字的严重性评分；以及基于所述候选文字的多个攻击性评分中的最高评分是否超过了攻击性阈值来判断所述候选文字是否为攻击文字；其中，候选文字的攻击性评分根据下式之一来计算：攻击性评分＝A*((B-C)/B)；攻击性评分＝A*((B-(1/C)/B)；攻击性评分＝Max(((A-C)/A),0)；以及攻击性评分＝(((B-C)/B)>T)；其中，A为在所述多个攻击性文字中的攻击性文字的严重性评分；B为所述攻击性文字的长度；以及C为在所述候选文字与所述攻击性文字之间的计算的距离；T为攻击性阈值。2.根据权利要求1所述的方法，其特征在于，所述多个攻击性文字中的每个文字和所述文字串中的每个文字包括简写。3.根据权利要求1所述的方法，其特征在于，所述距离被计算为：Levenshtein距离、Hamming距离、Damerau-Levenshtein距离、Dice系数、相似性指数、或Jaro-Winkler距离。4.根据权利要求1所述的方法，其特征在于，所述攻击性阈值由服务管理员设置；其中所述文字串从用户输入到服务；以及其中如果在所述文字串中的候选文字由于具有超过所述服务管理员所设置的攻击性阈值的攻击性评分而被识别为攻击文字，则拒绝自所述用户到所述服务的输入。5.根据权利要求4所述的方法，其特征在于，所述服务为内容评论入口，且其中所述攻击性阈值基于下列之一来设置：其中存在被评论的内容的内容分组；所述攻击性阈值相关联的特定内容；以及内容的第三方内容分级。6.根据权利要求5所述的方法，其特征在于，所述内容分组包括主题的特定分类，类型，地理原产地，其中所述地理包括国家、州、城市、公国或者它们的区域或子区域的集合，专业或政府认证或分级的组、或行业节日或事件精选。7.根据权利要求4所述的方法，其特征在于，所述服务选自下列的组：留言板、内容评论入口、聊天室、电子布告栏系统、社交网站和多人游戏。8.根据权利要求1所述的方法，其特征在于:所述攻击性阈值由服务用户来设置；所述文字串为从所述服务到所述用户的有意输出；以及包含因攻击性评分超过所述用户设置的所述攻击性阈值而被识别为攻击文字的文字串在显示给所述用户之前被修改。9.根据权利要求8所述的方法，其特征在于，根据下列之一来修改所述文字串：删除所述文字串使得所述文字串并不显示给所述用户；从所述文字串删除所述攻击性文字使得所述攻击性文字不显示给所述用户；删改所述文字串使得所述文字串并不显示给所述用户；或者，从所述文字串删改所述攻击性文字使得所述攻击性文字不显示给所述用户。10.根据权利要求8所述的方法，其特征在于，所述多个攻击性文字和攻击性阈值是基于对所述用户所确定的文化规范来设置。11.根据权利要求8所述的方法，其特征在于，所述多个攻击性文字和攻击性阈值基于政府机构限定的定义来设置，所述政府机构对于用户或者与所述用户相关联的非政府机构具有管辖权。12.根据权利要求8所述的方法，其特征在于，对于用户设置最大攻击性阈值，且其中所述用户不能设置高于所述最大攻击性阈值的攻击性阈值。13.根据权利要求1所述的方法，其特征在于，包含因攻击性评分超过所述攻击性阈值而被识别为攻击文字的文字串被拒绝输入到系统内。14.根据权利要求1所述的方法，其特征在于，所述多个攻击性文字和标识所述多个攻击性文字中每一个的严重性评分由用户、服务管理员、第三方或其任何组合来标识。15.根据权利要求1所述的方法，其特征在于，所述最高攻击性评分为下列之一：比较所述多个攻击性文字中的每一个与所述候选文字而计算的最小值攻击性评分；或者比较所述多个攻击性文字中的每一个与所述候选文字而计算的最大值攻击性评分。16.一种用于文字攻击性检...

【专利技术属性】
技术研发人员：约瑟夫·L·斯皮尔斯，
申请(专利权)人：因迪普拉亚公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人