基于数据挖掘的关联内容提取方法和装置制造方法及图纸

技术编号:17248763 阅读:31 留言:0更新日期:2018-02-11 07:00
本申请实施例公开了基于数据挖掘的关联内容提取方法和装置。该方法的一具体实施方式包括:获取待处理数据,待处理数据包括预设查询对象;确定待处理数据中,与预设查询对象关联的候选评论标签;从候选评论标签中筛选出评论标签;基于用户对各评论标签的点击量确定各评论标签的呈现顺序。对预设查询对象的评论标签的智能提取和按优先级呈现。

【技术实现步骤摘要】
基于数据挖掘的关联内容提取方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及基于数据挖掘的关联内容提取方法和装置。
技术介绍
现有的搜索工具中,通常由用户输入搜索关键词,并在用户触发搜索之后,向用户呈现相应的搜索结果。当用户需要获取有关搜索关键词的概要性观点时,可以通过逐条阅读搜索结果,并自行总结、提炼。数据挖掘,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。现有的搜索工具中,尚未出现基于数据挖掘来在搜索结果中展现有关搜索关键词的概要性观点的技术方案。
技术实现思路
本申请实施例的目的在于提出一种基于数据挖掘的关联内容提取方法和装置。第一方面,本申请实施例提供了一种基于数据挖掘的关联内容提取方法,包括:获取待处理数据,待处理数据包括预设查询对象;确定待处理数据中,与预设查询对象关联的候选评论标签;从候选评论标签中筛选出评论标签;基于用户对各评论标签的点击量确定各评论标签的呈现顺序。在一些实施例中,确定待处理数据中,与预设查询对象关联的候选评论标签,包括:基于自然语言处理方法,从待处理数据中提取出与预设查询对象关联的候选评论标签。在一些实施例中,从候选评论标签中筛选出评论标签,包括:基于预设匹配规则,从候选评论标签中去除与预设查询对象不相符的候选评论标签以筛选出评论标签。在一些实施例中,待处理数据包括对预设查询对象的评论数据,方法还包括:从预设的热点数据源获取包含预设查询对象的评论数据;确定各评论数据的权重;以及基于各评论数据的权重确定各评论数据的展示顺序。在一些实施例中,从预设的热点数据源获取包含预设查询对象的评论数据,包括:从预设的热点数据源获取包含预设查询对象的候选评论数据;以及基于每一条候选评论数据的页面浏览量,从候选评论数据中确定出评论数据。在一些实施例中,确定各评论数据的权重,包括基于以下任意一者确定各评论数据的权重:基于评论数据中是否具有与预设查询对象的共现次数超过预设次数的热点词,确定评论数据的权重;基于机器学习算法,确定评论数据的质量分值,并基于质量分值来确定评论数据的权重;以及基于用户对评论数据的点击量,确定评论数据的权重。在一些实施例中,方法还包括:基于自然语言处理工具确定各评论数据的情感倾向,并基于各评论数据的情感倾向确定预设查询对象的好评率。在一些实施例中,方法还包括:基于各预设时段内的预设查询对象的好评率生成预设查询对象的好评率曲线。第二方面,本申请实施例提供了一种基于数据挖掘的关联内容提取装置,包括:待处理数据获取单元,用于获取待处理数据,待处理数据包括预设查询对象;确定单元,用于确定待处理数据中,与预设查询对象关联的候选评论标签;第一筛选单元,用于从候选评论标签中筛选出评论标签;第一呈现单元,用于基于用户对各评论标签的点击量确定各评论标签的呈现顺序。在一些实施例中,确定单元进一步用于:基于自然语言处理装置,从待处理数据中提取出与预设查询对象关联的候选评论标签。在一些实施例中,第一筛选单元进一步用于:基于预设匹配规则,从候选评论标签中去除与预设查询对象不相符的候选评论标签以筛选出评论标签。在一些实施例中,待处理数据包括对预设查询对象的评论数据,装置还包括:评论数据获取单元,用于从预设的热点数据源获取包含预设查询对象的评论数据;权重确定单元,用于确定各评论数据的权重;以及第二呈现单元,用于基于各评论数据的权重确定各评论数据的展示顺序。在一些实施例中,评论数据获取单元进一步用于:从预设的热点数据源获取包含预设查询对象的候选评论数据;以及基于每一条候选评论数据的页面浏览量,从候选评论数据中确定出评论数据。在一些实施例中,权重单元进一步用于基于以下任意一者确定各评论数据的权重:基于评论数据中是否具有与预设查询对象的共现次数超过预设次数的热点词,确定评论数据的权重;基于机器学习算法,确定评论数据的质量分值,并基于质量分值来确定评论数据的权重;以及基于用户对评论数据的点击量,确定评论数据的权重。在一些实施例中,装置还包括:好评率确定单元,用于基于自然语言处理工具确定各评论数据的情感倾向,并基于各评论数据的情感倾向确定预设查询对象的好评率。在一些实施例中,装置还包括:好评率曲线生成单元,用于基于各预设时段内的预设查询对象的好评率生成预设查询对象的好评率曲线。第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如上的方法。本申请实施例提供的基于数据挖掘的关联内容提取方法和装置,通过获取包括预设查询对象的待处理数据,并从待处理数据中确定出与预设查询对象相关联的候选评论标签,再从候选评论标签中筛选出评论标签,最后基于用户对各评论标签的点击量确定各评论标签的呈现顺序,实现了对预设查询对象的评论标签的智能提取和按优先级呈现。进一步地,当将预设查询对象作为搜索关键词进行搜索时,可以减少用户对搜索结果的逐条点击读取,从而可以降低网络资源的占用,有利于搜索服务器的稳定运行。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的基于数据挖掘的关联内容提取方法的一个实施例的流程图;图3是根据本申请的基于数据挖掘的关联内容提取方法的又一个实施例的流程图;图4是根据本申请的基于数据挖掘的关联内容提取装置的一个实施例的结构示意图;图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的基于数据挖掘的关联内容提取方法或基于数据挖掘的关联内容提取装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104、105、第一服务器106和第二服务器107。网络104用以在终端设备101、102、103和第一服务器106之间提供通信链路的介质,网络105用以在第一服务器106和第二服务器107之间提供通信链路的介质。网络104、105可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与第一服务器106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索类应用、网页浏览器应用、购物类应用、邮箱客户端、社交平台软件等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种本文档来自技高网...
基于数据挖掘的关联内容提取方法和装置

【技术保护点】
一种基于数据挖掘的关联内容提取方法,其特征在于,包括:获取待处理数据,所述待处理数据包括预设查询对象;确定所述待处理数据中,与所述预设查询对象关联的候选评论标签;从所述候选评论标签中筛选出评论标签;基于用户对各所述评论标签的点击量确定各所述评论标签的呈现顺序。

【技术特征摘要】
1.一种基于数据挖掘的关联内容提取方法,其特征在于,包括:获取待处理数据,所述待处理数据包括预设查询对象;确定所述待处理数据中,与所述预设查询对象关联的候选评论标签;从所述候选评论标签中筛选出评论标签;基于用户对各所述评论标签的点击量确定各所述评论标签的呈现顺序。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理数据中,与所述预设查询对象关联的候选评论标签,包括:基于自然语言处理方法,从所述待处理数据中提取出与所述预设查询对象关联的候选评论标签。3.根据权利要求1所述的方法,其特征在于,所述从所述候选评论标签中筛选出评论标签,包括:基于预设匹配规则,从所述候选评论标签中去除与所述预设查询对象不相符的候选评论标签以筛选出所述评论标签。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述待处理数据包括对所述预设查询对象的评论数据,所述方法还包括:从预设的热点数据源获取包含所述预设查询对象的评论数据;确定各所述评论数据的权重;以及基于各所述评论数据的权重确定各所述评论数据的展示顺序。5.根据权利要求4所述的方法,其特征在于,所述从预设的热点数据源获取包含所述预设查询对象的评论数据,包括:从预设的热点数据源获取包含所述预设查询对象的候选评论数据;以及基于每一条所述候选评论数据的页面浏览量,从所述候选评论数据中确定出所述评论数据。6.根据权利要求4所述的方法,其特征在于,所述确定各所述评论数据的权重,包括基于以下任意一者确定各所述评论数据的权重:基于所述评论数据中是否具有与所述预设查询对象的共现次数超过预设次数的热点词,确定所述评论数据的权重;基于机器学习算法,确定所述评论数据的质量分值,并基于所述质量分值来确定所述评论数据的权重;以及基于用户对所述评论数据的点击量,确定所述评论数据的权重。7.根据权利要求4-6任意一项所述的方法,其特征在于,还包括:基于自然语言处理工具确定各所述评论数据的情感倾向,并基于各所述评论数据的情感倾向确定所述预设查询对象的好评率。8.根据权利要求7所述的方法,其特征在于,还包括:基于各预设时段内的所述预设查询对象的好评率生成所述预设查询对象的好评率曲线。9.一种基于数据挖掘的关联内容提取装置,其特征在于,包括:待处理数据获取单元,用于获取待处理数据,所述待处理数据包括预设查询对象;确定单元,用于确定所述待处理数据中,与所述预设查询对象关联的候选评论标签...

【专利技术属性】
技术研发人员:徐伟建刘建林
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1