商品相关网络文章之自动图文摘要方法及系统技术方案

技术编号:14383498 阅读:36 留言:0更新日期:2017-01-10 10:51
本发明专利技术提供一种商品相关网络文章之自动图文摘要方法及系统。该方法包括步骤:从互联网上搜集网络文章;从搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。本发明专利技术的自动图文摘要系统,采用自动摘要技术,汇整不同信息来源,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询。

【技术实现步骤摘要】

本专利技术涉及网络信息处理领域,特别涉及一种商品相关网络信息之自动图文摘要方法及系统。
技术介绍
随着互联网和Web2.0的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越多的人喜欢在互联网上发表他们对人、事、物的意见,论坛、博客(Blog)、评论网站、微博等都给Web2.0时代的使用者提供了一个发布信息、表达观点的平台,于是互联网上产生了大量的含有个人主观色彩的评论信息。在购买商品前,例如购买3C产品或美妆产品,或到餐厅进行消费等,消费者往往习惯于在网络上搜寻商品的相关信息或评论。然而,网络信息数量繁多、质量好坏不一、完整度不一,不同来源的评论可能意见相左,想要获得较为可靠的评论之总结,就必须浏览与综合许多不同来源的意见。因此,如何自动综合分析网络上对特定商品的评论信息,如何快速提取出有参考价值的信息,以便减轻消费者阅读大量相关评论信息的工作量,并帮助消费者于短时间内判断及做出购买决策,已经成为自然语言处理领域中的一个研究热点。
技术实现思路
有鉴于此,有必要提出一种商品相关网络文章之自动图文摘要系统及方法,以解决上述问题。一种商品相关网络文章之自动图文摘要系统,安装并运行于一服务器中。该自动图文摘要系统包括一信息搜集模块,用于从互联网上搜集网络文章;一信息撷取模块,用于从该信息搜集模块搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及一影像摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。一种商品相关网络文章之自动图文摘要方法,应用于一服务器中。该自动图文摘要方法包括步骤:从互联网上搜集网络文章;从搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。本专利技术的商品相关网络文章之自动图文摘要方法及系统,采用自动摘要技术,汇整不同信息来源,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询,并帮助消费者于短时间内判断及取得重要购买决策参考信息。附图说明图1是本专利技术一实施方式中的商品相关网络文章之自动图文摘要系统的运行环境示意图。图2是本专利技术一实施方式中的商品相关网络文章之自动图文摘要系统的功能模块示意图。图3是本专利技术一实施方式中的商品相关网络文章之自动图文摘要方法的流程图。图4是本专利技术一实施方式中的筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中的流程图。图5是本专利技术一实施方式中的从与各个商品相关的图片中分别筛选出各个商品的代表图片的流程图。图6是本专利技术一实施方式中的根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息的流程图。主要元件符号说明服务器100存储单元11处理器12通信单元13自动图文摘要系统10信息搜集模块101信息撷取模块102影像摘要模块103文字摘要模块104查询模块105互联网200特定主题商品数据库300步骤301-305、3021-3023、3031-3034、3041-3043如下具体实施方式将结合上述附图进一步说明本专利技术。具体实施方式如图1所示,是本专利技术一实施方式中的商品相关网络文章之自动图文摘要系统10的运行环境示意图。该自动图文摘要系统10为安装并运行于一服务器100中的一系列计算机化程序代码。在本实施方式中,该服务器100可以是网络服务器、云端服务器等计算机装置。该服务器100还包括,但不限于,存储单元11、处理器12以及通信单元13。该通信单元13用于与一互联网200连接,并从该互联网200中获取信息及/或向该互联网200上传信息。该存储单元11用于存储各类信息,例如该自动图文摘要系统10的计算机化程序代码。该处理器12用于执行该自动图文摘要系统10以及该服务器100内安装的各类软件的计算机化程序代码。该存储单元11可为闪存卡、硬盘等。该处理器12可为中央处理器、单片机、数字信号处理器等。在本实施方式中,该自动图文摘要方法及系统,汇整不同来源商品相关网络文章,并采用自动摘要技术,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询,并帮助消费者于短时间内判断及取得重要购买决策参考信息。如图2所示,是本专利技术一实施方式中的商品相关网络文章之自动图文摘要系统10的功能模块示意图。在本实施方式中,该自动图文摘要系统10包括一信息搜集模块101、一信息撷取模块102、一影像摘要模块103、一文字摘要模块104、以及一查询模块105。本专利技术所称的模块是指一种能够被计算机的处理器所执行并且能够完成特定功能的一系列计算机化程序代码,其存储在该计算机装置的存储单元中。关于各模块的功能将在下面的流程图中具体描述。根据不同的需求,该流程图步骤的顺序可以改变,某些步骤可以省略。图3为本专利技术一实施方式的商品相关网络文章之自动图文摘要方法的流程图。如图3所示,根据本专利技术一实施方式的商品相关网络文章之自动图文摘要方法,包括以下步骤:步骤301,该信息搜集模块101透过该通信单元13从互联网200上搜集网络文章,并将搜集到的网络文章传送至该信息撷取模块102。在本实施方式中,该信息搜集模块101可以采用现有的信息收集方法,例如,采用面向互联网的自动化程序,例如网络爬虫(crawler)、网络机器人(bot)、或网络蜘蛛人(spider)等来定期自动地从互联网200上搜集网络文章。在本实施方式中,该网络文章可以是博客、微博、论坛等网页文件。步骤302,该信息撷取模块102从该信息搜集模块101搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库300(例如餐厅数据库)中。该特定主题的商品可为3C产品、家电、汽车、美妆产品、或餐厅等。如图4所示,在本实施方式中,该步骤302具体包括以下步骤:步骤3021,该信息撷取模块102判断该搜集到的网络文章是否与该特定主题的商品相关。以餐厅及博客信息为例,与该餐厅相关的特定主题为食记(对应于商品,则可为商品开箱文)。该信息撷取模块102判断该博客的主题是否是食记。在本实施方式中,该信息撷取模块102首先通过现有的语言算法将搜集到的网络文章分别表示成文字字典分布(Bag-Of-Words)特征向量,然后利用预先训练好的机器学习食记分类器,判断该网络文章的主题是否是食记。机器学习食记分类器的产生方式如下:预先搜集训练信息,食记信息作为正例,非食记信息作为反例。将这些训练信息输入机器学习的分类算法,例如支撑向量机(S本文档来自技高网...
商品相关网络文章之自动图文摘要方法及系统

【技术保护点】
一种商品相关网络文章之自动图文摘要系统,安装并运行于一服务器中,其改良在于:该自动图文摘要系统包括:一信息搜集模块,用于从互联网上搜集网络文章;一信息撷取模块,用于从该信息搜集模块搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及一影像摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。

【技术特征摘要】
1.一种商品相关网络文章之自动图文摘要系统,安装并运行于一服务器中,其改良在于:该自动图文摘要系统包括:一信息搜集模块,用于从互联网上搜集网络文章;一信息撷取模块,用于从该信息搜集模块搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及一影像摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。2.如权利要求1所述的自动图文摘要系统,其特征在于:该信息撷取模块通过下述方式筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中:判断该搜集到的网络文章是否与该特定主题的商品相关;以及以结构化样式规则从与该特定主题的商品相关的网络文章中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中;或从与该特定主题的商品相关的网络文章的非结构化信息中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中。3.如权利要求2所述的自动图文摘要系统,其特征在于:该影像摘要模块通过下述方式从与各个商品相关的图片中分别筛选出各个商品的代表图片:针对每一商品,根据预设条件对与该商品相关的所有图片做预过滤;从经过滤后的每一图片中分别撷取影像特征;将从各张图片中撷取出的影像特征提供给一照片选择器,利用该照片选择器给每一张图片评分,并将该评分作为选择代表图片的依据;以及筛选出综合评分最高的图片作为对应的商品的代表图片。4.如权利要求2所述的自动图文摘要系统,其特征在于:该自动图文摘要系统还包括一文字摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中包含的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息,并将各个商品的评论摘要信息存储于该特定主题商品数据库中。5.如权利要求4所述的自动图文摘要系统,其特征在于:该文字摘要模块通过下述方式从该特定主题商品数据库中分别获取与各个商品相关的网络文章中的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要:针对每一商品,设定商品的若干个属性类别,对该商品的所有相关评论信息中的每一个句子进行属性分类及相应的情感分类;确定每一属性类别对应的情感分类结果;以及对于每一个属性类别,从归属为该属性类别且情感分类与该情感分类结果相符的所有句子中挑选出现次数最多的特征词与意见词,并利用自然语言生成技术将特征词组合意见词来产生评论摘要。6.如权利要求4所述的自动图文摘要系统,其特征在于:该自动图文摘要系统还包括一查询模块,用于根据从该互联网中接收到的一目标商品的搜寻关键词,从该特定主题商品数据库中搜寻该目标商品的影像摘要信息及评论摘要信息。7.一种商品相关网络文章之自动图文摘要方法,应用于...

【专利技术属性】
技术研发人员:骆宏毅王智敏张怡君胡敏君
申请(专利权)人:富泰华工业深圳有限公司鸿海精密工业股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1