一种违规在线商品检测方法技术

技术编号:7759200 阅读:227 留言:0更新日期:2012-09-14 01:15
一种违规在线商品检测方法,包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,找到包含网页中多个结构相似的信息块的最小深度的节点为临界节点,形成相关联信息点进行抽取的规则并建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典,对提取的商品属性信息通过基于字符匹配的方法进行分词;(4)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行识别判断,根据函数返回结果,判定违规在线商品的违规类别。本发明专利技术简化计算、及时性良好、适合多变的页面模式。

【技术实现步骤摘要】

本专利技术涉及计算机网络技木,尤其是ー种违规在线商品检测方法
技术介绍
近年来电子商务飞速发展,网络购物颠覆了传统的购物方式。互联网用户可以通过网络获取更广大的购物空间,突破地域的限制,可以随时购买自己想要的东西,没有营业 时间的限制;可以按照自己需要的类别进行挑选,比对不同的价格,实现真正的自主购物;虽然看不到实物,选择的过程中可以參照已购者的评价和专家的建议,不用和商家进行接触,避免了讨价还价的环节中可能出现的摩擦和精神消耗,而且支付也异常快捷,可以避免现实中钱财被盗的现象,足不出户便可买到自己所需要的商品,网络购物可谓是省时省力。网上购物因为方便快捷逐渐成为大家喜爱的ー种购物方式,但是面对网络这样ー种虚拟的环境,不免也存在一些信息的可信度问题。比如说商品的真伪,商品的描述故意夸大其功能,商品信息的描述隐含了非法内容等,商家经营权限的自主扩大,这些都严重扰乱了电子商务的次序,对消费者的合法权益造成伤害,对电子エ商部门的监管带来了挑战。现存的违规在线商品的智能判断方法,主要是利用元搜索引擎抽取商品的信息,返回的信息来自多个搜索引擎,需要做排重和重新排序处理后作为自己的捜索结果返回,筛选工作复杂而且信息处理是在信息抓取完成后进行,不具有即时性,对商品信息的抽取时采用正则表达式匹配进行抽取,不适合多变的页面模式。
技术实现思路
为了克服已有违规在线商品检测方法的计算复杂、不具有即时性、不适合多变的页面模式的不足,本专利技术提供ー种简化计算、具有即时性、适合多变的页面模式的违规在线商品检测方法。本专利技术解决其技术问题所采用的技术方案是ー种违规在线商品检测方法,所述检测方法包括以下步骤(I)通过网络爬虫对待检测在线商品所在页面的信息进行爬取(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留与主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点;(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性;根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典首先对 产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充;对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是ー个词,则查找返回以所查询词开头位置最靠前的词;若不在字典,检查以给定字符串开头的其他词返回;(4)采用人工建立违规语义库,通过函数IllegalList,将违规语义库中的词汇和经过分词的商品属性信息相关内容词语字段进行比对识别判断,根据函数返回的结果,判定违规在线商品的违规类别。进ー步,所述步骤(11)中,计算网页与商品信息主题相关度公式权利要求1.,其特征在于所述检测方法包括以下步骤 (1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取 (11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止; (12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构; (2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则 (a)临界节点只可能是块类型节点的子集,不可能是其他类型节点; (b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节占. (c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性; 根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据; (3)建立语义字典首先对产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充; 对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典中,检查以给定字符串开头的其他词返回; (5)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行判断,根据函数返回的结果,判定违规在线商品的违规类别。2.如权利要求I所述的,其特征在于所述步骤(11)中,计算网页与商品信息主题相关度公式3.如权利要求I或2所述的,其特征在于所述步骤(3)中,对商品信息的语义分析,包括商品的全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、中英文关键字、上市时间、下市时间、中英文产品短描述和网址。4.如权利要求3所述的,其特征在于所述步骤(3)中,所述的人工构造初级语义字典的基础上对字典进行扩充,是对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词,然后获取基本概念词汇表中的词和其词性,查询外部词典的解释,若此词存在于解释中,且和词条的词性相同,两者之间并能够具有极高的相似度,则认为是同义词。5.如权利要求I或2所述的,其特征在于所述步骤(3)中,在对商品信息进行分词后,基于词汇对商品的重要性分析,对词汇进行特征提取,采用以下的TF*IDF公式w = w0XL—weight Xpo s—weight其中,L_weight为特征词词条的长度;pos_weight为特征词所在标签的权重;w _ t-f(t,d)x\og(N!n) W。为传统的 TF*IDF 公式6.如权利要求I或2所述的,其特征在于所述步骤(5)中,检测出的在线违规商品的违规类别包括产品是否合乎规范要求、商家是否有相应商品的经营权限、商品的宣传是否夸本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张兰兰田宁谭磊刘崟
申请(专利权)人:浙江盘石信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1