网络信息的处理方法和抽象语法树的建立方法及其装置制造方法及图纸

技术编号:9462799 阅读:83 留言:0更新日期:2013-12-19 00:02
本申请提供了一种网络信息的处理方法和抽象语法树的建立方法及其装置,其中,网络信息的处理方法包括:按照抽象语法树中的节点所描述的特征信息加载待检测网络信息中对应的字段信息,其中,抽象语法树中的各节点用于描述违规商品信息的特征信息;根据所加载的字段信息判断抽象语法树中的节点所对应的语句是否成立;若成立,则判断待检测网络信息为违规商品信息。本申请中的技术方案,解决了现有技术中对电子交易平台中发布的违规商品的处理效率较低的问题,提高了违规商品处理的效率。

【技术实现步骤摘要】
网络信息的处理方法和抽象语法树的建立方法及其装置
本申请涉及互联网
,特别地涉及一种网络信息的处理方法和装置、以及抽象语法树的建立方法和装置。
技术介绍
电子商务网站作为一个商品交易平台(也可以称为:电子交易平台),每天有许多的卖家发布商品。一些信誉不好的卖家出于自身利益会利用这一平台违规发布一些商品。例如,欺骗消费者的广告商品、夸大宣传效果的商品、骗取网站搜索流量的商品、商品分类摆放不正确的商品等。为此,电子商务网站的管理人员一方面需要能够及时地阻止这些违规商品的发布,这要求从违规商品被发布到被检测的时间应当尽可能地短;另一方面需要对已经发布到网站的所有商品进行扫描,从中检测出违规商品,以便进行相应的处理。目前对于电子商务网站收到的商品信息的检测,主要有“规则引擎+搜索引擎”的方式和基于数据库的信息检索方式,以下分别介绍这两种方式。规则引擎是基于规则的专家系统的一部分,其核心是推理机,通过模式匹配器,推导事实与规则的匹配程度,当事实与规则匹配时,将规则装入规则优先级表中;之后,从规则优先级表中进行规则匹配,在匹配到的所有规则中选取优先级最高的规则(或者采用其他规则选择算法来选择规则),并执行相应的运作。典型的规则引擎包括Drools等,并有一些基于Drools的用于排查违规商品的业务系统。规则引擎适合于以流过滤的方式匹配目标数据,当遇到海量商品时,可以采用正向扫描的方式,逐一处理目标商品。规则引擎可用于实时排查违规商品,搜索引擎可用于全量排查违规商品。但这种“规则引擎+搜索引擎”的方式存在如下缺点:由于规则引擎和搜索引擎两者相对独立,因此两者的匹配规则之间无法兼容。针对同一个业务需求,需要分别设置两者各自的商品管理规则,导致维护、开发成本较高。此外,现有的规则引擎语法过于复杂,其维护、编写规则的成本非常高;同时在语法增强方面的能力欠缺。由于正则表达式类型的匹配能力对于排查违规商品至关重要,而搜索引擎在面对需要支持正则表达式类型的匹配时,其实现成本高,性能差。以下举一个分别用规则引擎和搜索引擎进行处理的例子。例如,对于商品管理规则:禁止出现在标题中标注了包邮,而实际上商品价格中标注的邮费却不是0元的行为。对于上述规则,还可以有一条补充规则,例如:标题中含有“江浙沪包邮”、“满100包邮”等在“包邮”之前添加限定词的商品,则不认为是违规商品。根据上述限定的规则,“包邮五星皇冠手机”是违规的商品标题,而“江浙沪包邮五星皇冠手机”是非违规的商品标题。对于上述规则的处理,需要用到正则表达式,在现有技术中,规则引擎能够支持正则表达式,采用规则引擎处理时的核心伪代码可以是:importjava.util.*;rule"baoyouRule"no-loopfalsesalience1whena:Auction(postage_price!=0,titlematches“.+[]+|[]+包邮.*”,)thensetCheckStaus(false);a.setError(“您的商品违反了淘宝的商品管理规则,校验不通过”);End以下对正则表达式(“.+[]+|[]+包邮.*”)做出解释。正则表达式是一种常用的文本匹配的技术。首先按照规则,定义一个模式(字符串);之后可以根据该模式,匹配目标字符串是否符合该模式定义的特征。不同的编程语言,其规则有些许差异,但大致原理相似。IFDL中的正则表达式规则,与JAVA语言类似。上述的模式“.+[]+|[]+包邮.*”,其各个字符的意义如下:(“[]”中含有一个空格)“.”:表示可以匹配任意一个字符;“+”,“?”,“*”,这三个字符均用于定义数量,“+”表示出现在其之前的字符,数量为1个或1个以上;“?”表示0个或者1个;“*”表示任意个;“[]”:用中括号括起的一组字符,用于圈定字符范围;“|”:表示or的关系;因此根据上述的模式,可以匹配的目标字符串的特征是:目标字符串含有“包邮”二字;在“包邮”后面,紧跟着任意个字符(.*);在“包邮”前面,必须含有“1个或1个以上的空格([]+)”,或者“(|)1个或者1个以上的字符(.+)且后跟着1个或1个以上的空格([]+)”。因此,可以匹配到的(即认为是违规的)目标字符串举例如下:“五皇冠包邮诺基亚N73”,“热卖包邮苹果IPHONE4”……匹配不到的目标字符串(即认为是没有违规的)例如:“江浙沪包邮诺基亚N73”,“满百包邮诺基亚N73”等。从上面的代码可以看出,针对一个简单的商品管理规则,规则引擎需要大量的非业务逻辑代码来构建。实际中的商品管理子规则,通常会达到几万的规模甚至更多,由此增加的总体工作量非常惊人,工作效率低下。使用搜索引擎处理时,需要搜索引擎将现有的商品记录全部索引到其目录中,同时将商品标题、商品邮费添加为搜索引擎的索引字段。在搜索引擎全部索引完商品记录后,即可向搜索引擎发出带有以下查询串的请求,从现有的商品记录中检索出符合规定的违规商品:q=包邮&filter=postage_price%5B0.01%2C%5D由于搜索引擎不支持正则表达式,使得返回的商品结果中可能会含有标题的非违规商品,例如,标题为“江浙沪包邮五星皇冠手机”的非违规商品,,因此,需要在搜索引擎返回的商品结果中进行二次过滤,以排除标题合法的商品。从上述内容可以看出,采用搜索引擎处理的不足之处主要在于:第一,搜索引擎将现有的全部商品记录索引到其目录中,以现有的电子商务平台的商品规模,通常需要成百上千台的服务器,运行数十个小时才能完成,非常耗时;第二,为满足商品管理的需要,商品的标题和邮费需要添加为搜索引擎的索引字段,这将给运行搜索引擎的计算机带来较大的存储空间的开销;第三,如上所述,在搜索引擎返回的结果中,有时需要进行二次过滤,这将大大降低商品标题处理的效率;第四,由于搜索引擎构建索引需要大量的时间,因此,当搜索引擎中只含有已经发布到电子商务网站的商品记录时,对于当前正在发布到电子商务网站的商品记录,搜索引擎将无法进行实时地监控,难以对最新发布的商品进行检查,将只能在商品发布到电子商务网站之后的十几分钟内,甚至需要更长的时间才能完成检查,这样的检查延迟会使得违规标题被发布一段时间,影响了搜索引擎的处理效果。现有技术中还存在基于数据库的信息检索方式,该方式主要将电子商务网站的商品信息持久化存储在数据库中,并且该数据库本身具备信息检索能力,以实现对收到的商品信息进行检测的目的。以这种方式,一般按照不同的领域对象分布存储于不同的表中,当匹配到违规商品时,往往需要同时在多个表之间进行数据关联映射,之后再进行查找。当数据量达到上亿的数量级时,关系型数据库的处理效率将非常低,难以满足应用的需要。综上所述,在现有技术中,对于电子交易平台中发布的违规商品的处理效率较低并且处理效果欠佳的问题,目前尚未提出有效解决方案。
技术实现思路
本申请提供一种网络信息的处理方法和装置、以及抽象语法树的建立方法和装置,以解决现有技术中电子交易平台中发布的违规商品的处理效率较低的问题。根据本申请的一个方面,提供了一种抽象语法树的建立方法,其包括:获取用于描述违规商品信息的特征信息;将特征信息编译成脚本信息,其中,脚本信息中各语句之间的逻辑关系与特征信息中本文档来自技高网
...
网络信息的处理方法和抽象语法树的建立方法及其装置

【技术保护点】
一种抽象语法树的建立方法,其特征在于,包括:获取用于描述违规商品信息的特征信息;将所述特征信息编译成脚本信息,其中,所述脚本信息中各语句之间的逻辑关系与所述特征信息中各特征之间的逻辑关系相对应;按照所述脚本信息中各语句之间的逻辑关系建立与所述特征信息对应的抽象语法树,其中,所述抽象语法树中的每个节点与一个或多个语句相对应,各个节点之间的连接关系与所述各语句之间的逻辑关系相对应。

【技术特征摘要】
1.一种抽象语法树的建立方法,其特征在于,包括:获取用于描述违规商品信息的特征信息;将所述特征信息编译成脚本信息,其中,所述脚本信息中各语句之间的逻辑关系与所述特征信息中各特征之间的逻辑关系相对应;按照所述脚本信息中各语句之间的逻辑关系建立与所述特征信息对应的抽象语法树,其中,所述抽象语法树中的每个节点与一个或多个语句相对应,各个节点之间的连接关系与所述各语句之间的逻辑关系相对应;其中,在按照所述脚本信息中各语句之间的逻辑关系建立与所述特征信息对应的抽象语法树之后,还包括:按照所述抽象语法树中的节点所描述的特征信息加载待检测网络信息中对应的字段信息;根据所加载的字段信息判断所述抽象语法树中的节点所对应的语句是否成立;若成立,则判断所述待检测网络信息为违规商品信息。2.根据权利要求1所述的方法,其特征在于,在将所述特征信息编译成脚本信息之后,以及在按照所述脚本信息中各语句之间的逻辑关系建立与所述特征信息对应的抽象语法树之前,所述方法还包括:将编译得到的脚本信息以xml文件的形式存放到服务器中;在需要建立所述抽象语法树时,读取以xml文件的形式存储的脚本信息,并从所述xml文件中解析得到所述脚本信息。3.根据权利要求1所述的方法,其特征在于,根据所加载的字段信息判断所述抽象语法树中的节点所对应的语句是否成立的步骤包括:判断所述加载的字段信息是否满足所述节点所对应的语句中描述的判断条件;若满足,则判断出所述抽象语法树中的节点所对应的语句成立;若不满足,则判断出所述抽象语法树中的节点所对应的语句不成立。4.一种网络信息的处理方法,其特征在于,包括:按照抽象语法树中的节点所描述的特征信息加载待检测网络信息中对应的字段信息,其中,所述抽象语法树中的各节点用于描述违规商品信息的特征信息;根据所加载的字段信息判断所述抽象语法树中的节点所对应的语句是否成立;若成立,则判断所述待检测网络信息为违规商品信息;其中,在按照抽象语法树中的节点所描述的特征信息加载待检测网络信息中对应的字段信息之前,还包括:获取用于描述违规商品信息的特征信息;将所述特征信息编译成脚本信息,其中,所述脚本信息中各语句之间的逻辑关系与所述特征信息中各特征之间的逻辑关系相对应;按照所述脚本信息中各语句之间的逻辑关系建立与所述特征信息对应的抽象语法树,其中,所述抽象语法树中的每个节点与一个或多个语句相对应,各个节点之间的连接关系与所述各语句之间的逻辑关系相对应。5.根据权利要求4所述的方法,其特征在于,在将所述特征信息...

【专利技术属性】
技术研发人员:丰莎陈国成刘抚狄蒋萌王男
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1