实现观点搜索引擎排序的方法技术

技术编号:4203366 阅读:287 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种实现观点搜索引擎排序的方法,包括:使用网 络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处 理后的网页中提取出用户评论信息;使用数据挖掘技术从该用户评论 信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息 库;转换该评论信息库中所有用户评论信息文档的格式,构建用户评 论信息文档的层次结构;对转换以后的用户评论信息建立倒排序索引; 对建立倒排序索引的用户评论信息进行排序;对用户评论信息进行统 计分析及可视化。利用本发明专利技术,有效地融合了用户评论信息的品质因 素,并充分考虑了时间维度信息,能够为潜在用户提供更准确、更相 关、更及时的观点信息服务。

【技术实现步骤摘要】

本专利技术涉及信息检索和搜索引擎
,是一种实现观点搜索 引擎排序的方法。
技术介绍
二十一世纪是信息化的时代,第三产业在各国的比重不断上升,特别是服务业,信息服务业成为21世纪的主导产业,这导致了电子商 务的产生和发展,在全球信息化大势所驱的影响下,各国的电子商务 不断的改进和完善,电子商务成为各个国家和各大公司争夺的焦点。 而在我国,计算机与网络技术的普及与发展,电子商务迅速崛起,众 多的信息技术企业、风险投资公司、生产流通企业纷纷开展电子商务。2007年,世界电子商务继续快速发展,成为经济全球化的助推器。 电子商务的广泛应用降低了企业经营、管理和商务活动的成本,促进 了资金、技术、产品、服务和人员在全球范围的流动,推动了经济全 球化的发展。目前,电子商务的应用已经成为决定企业国际竞争力的 重要因素,以美国亚马逊、EBAY以及中国的阿里巴巴等公司的成功 说明电子商务正在引领世界服务业发展,并影响着未来商业发展模式。从整体情况看,2007年世界电子商务交易额达12.8万亿美元,占 全球商品交易的18%。以美国为首的发达国家,仍然是电子商务主力 军,中国等发展中国家电子商务异军突起,日益成为国际电子商务市 场的重要力量。2007年,B2B电子商务仍占主导地位,B2C、 G2C、 G2B、 C2C等电子商务发展迅猛,呈现多元发展态势。以大型骨干企 业为龙头的行业电子商务是B2B主流力量,ASP等第三方电子商务平 台成为中小企业电子商务应用的成功模式之一。当在网上购物时,用户面临的一个很大的问题就是如何在众多的 电子商务网站上找到自己想要的物品评价信息,基于用户评论信息的4观点搜索引擎是解决这个问题的关键,当用户输入一个产品或产品属 性时,观点搜索引擎就按照关键词语到索引文件中査找,并返回最相 关的产品观点信息。目前针对用户评论信息的观点搜索引擎还处在研究阶段。并且存 在以下问题,第一没有充分考虑到评论信息的品质高低。第二没有考 虑到时间维度信息在搜索结果排序中的重要性。第三没有对搜索结果 进行统计分析及可视化。
技术实现思路
(一) 要解决的技术问题有鉴于此,为了为潜在用户提供方便快捷的观点信息服务,以及 解决现有的观点搜索排序方法存在的问题,本专利技术的主要目的是提供 一种,以克服现有观点搜索引擎排序方 法存在的问题,如只考虑观点信息的相关性,没有对搜索结果进行可 视化等缺陷,为潜在用户提供更有效的观点信息服务。(二) 技术方案为了达到上述目的,本专利技术提供了一种实现观点搜索引擎排序的 方法,该方法包括步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页 进行预处理,从预处理后的网页中提取出用户评论信息;步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;步骤S4:对转换以后的用户评论信息建立倒排序索引;步骤S5:对建立倒排序索引的用户评论信息进行排序;步骤S6:对用户评论信息进行统计分析及可视化。优选地,步骤S1中所述对用户评论网页进行抓取,首先获得电子商务网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这5些电子商务网站进行抓取。优选地,步骤Sl中所述提取出用户评论信息采用RoadRunner算 法对抓取的用户评论信息网页进行提取。优选地,步骤S2中所述数据挖掘技术为association rule mining技 术,所述确定属性评论信息的极性是确定用户对该属性的评论是正面 的还是反面的。优选地,步骤S3中所述用户评论信息文档的层次结构用于表示用 户评论信息中的元数据信息和用户评论信息的具体内容,在用户评论 信息的具体内容表示上以用户评论信息中含有产品属性和观点极性的 评论句子为单位,评论句子包括该句子含有的产品属性、观点极性和 句子的具体内容。优选地,步骤S4中所述建立的倒排序索引,用于存储用户评论信 息中的元数据,同时索引了评论句子的具体内容,该索引是建立在句 子层次上的索引,而不是在用户评论文档层次上的索引。优选地,步骤S5中所述对建立倒排序索引的用户评论信息进行排 序,以评论信息的相关性、评论信息的品质因子、评论信息的时间维 度信息为关键词进行。优选地,步骤S6中所述对用户评论信息进行统计分析及可视化, 是通过对搜索出的用户评论信息进行统计分析,将用户评论信息随时 间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进 行可视化。(三)有益效果从上述技术方案可以看出,本专利技术提供的这种实现观点搜索引擎 排序的方法,有效地融合了用户评论信息的品质因素,并充分考虑了 时间维度信息,能够为潜在用户提供更准确、更相关、更及时的观点 信息服务。因此,本专利技术从一定程度上解决了现有观点搜索排序方法 存在的问题。同时本专利技术对搜索结果进行统计分析,将用户评论信息 随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信 息进行可视化,给潜在用户清晰直观的用户评论信息。附图说明图1是本专利技术提供的流程图; 图2是依照本专利技术实施例经过步骤Sl预处理后的结果示意图; 图3是依照本专利技术实施例步骤S2属性抽取以及属性评论信息的极 性确定的结果示意图4是依照本专利技术实施例表示用户评论信息文档的层次结构图,-图5是依照本专利技术实施例经过步骤S3转换后的结果示意图; 图6是依照本专利技术实施例评论信息随时间变化的曲线图7是依照本专利技术实施例正反面观点对比用的直方图8是依照本专利技术实施例用户搜索产品属性Sony W55 Size是系统返回的结果图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具 体实施例,并参照附图,对本专利技术进一步详细说明。应指出的是,所 描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。为了实现本专利技术的方法,考虑到算法涉及多线程抓取和建立倒排 序索引,如果在单机实现,最好保证处理器主频不小于2GHz,内存不 小于1G,可采用任何常用编程语言编写。本专利技术提出的观点搜索引擎排序方法,总体流程如图1所示,具 体包括用户评论信息抓取(步骤S1)部分和构建评论信息库(S2) 为整个搜索引擎准备数据;步骤S3将评论信息库中所有用户评论信息 文档转换成如图4所示的层次结构;步骤S4是对转换以后的用户评论 信息建立倒排序索引;步骤S5是对用户的搜索结果进行排序;步骤 S6是对用户搜索结果进行统计分析及可视化。基于图1所示的流程图,以下详细 说明本专利技术提供的这种流程图。步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页 进行预处理,从预处理后的网页中提取出用户评论信息。评论网页进行抓取,首先获得电子商务网站 网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电 子商务网站进行抓取。对电子商务网站进行目录式抓取,因为本专利技术 是针对用户评论信息,所以要抓取的目标网页主要来自电子商务网站,比如亚马逊等。首先人为获得这些网站的URL网址,用自己编写的抓取器对这些电子商务网站进行抓取。由于这些网站绝大多数都是电子 商务主题的信息,而且层次较少,所以采用宽度优先抓取的策略。见图1中步骤S1。由于网页抓取己经有许多成熟的方法,所以不属本文档来自技高网
...

【技术保护点】
一种实现观点搜索引擎排序的方法,其特征在于,该方法包括: 步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息; 步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库; 步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构; 步骤S4:对转换以后的用户评论信息建立倒排序索引; 步骤S5:对建立倒排序索引的用户评论信息进行排序; 步骤S6:对用户评论信息进行统计分析及可视化。

【技术特征摘要】
1、一种实现观点搜索引擎排序的方法,其特征在于,该方法包括步骤S1使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;步骤S2使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;步骤S3转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构;步骤S4对转换以后的用户评论信息建立倒排序索引;步骤S5对建立倒排序索引的用户评论信息进行排序;步骤S6对用户评论信息进行统计分析及可视化。2、 根据权利要求l所述的实现观点搜索引擎排序的方法,其特征 在于,步骤S1中所述对用户评论网页进行抓取,首先获得电子商务网 站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电子 商务网站进行抓取。3、 根据权利要求l所述的实现观点搜索引擎排序的方法,其特征 在于,步骤Sl中所述提取出用户评论信息采用RoadRunner算法对抓 取的用户评论信息网页进行提取。4、 根据权利要求l所述的实现观点搜索引擎排序的方法,其特征 在于,步骤S2中所述数据挖掘技术为association rule mining技术,所 述确定属性评论信息的极性是确...

【专利技术属性】
技术研发人员:缪庆亮戴汝为李秋丹王春恒
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1