基于数据挖掘的关联内容提取方法和装置制造方法及图纸

技术编号：17248763 阅读：31 留言：0更新日期：2018-02-11 07:00

本申请实施例公开了基于数据挖掘的关联内容提取方法和装置。该方法的一具体实施方式包括：获取待处理数据，待处理数据包括预设查询对象；确定待处理数据中，与预设查询对象关联的候选评论标签；从候选评论标签中筛选出评论标签；基于用户对各评论标签的点击量确定各评论标签的呈现顺序。对预设查询对象的评论标签的智能提取和按优先级呈现。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据挖掘的关联内容提取方法和装置
本申请实施例涉及计算机
，具体涉及互联网
，尤其涉及基于数据挖掘的关联内容提取方法和装置。
技术介绍
现有的搜索工具中，通常由用户输入搜索关键词，并在用户触发搜索之后，向用户呈现相应的搜索结果。当用户需要获取有关搜索关键词的概要性观点时，可以通过逐条阅读搜索结果，并自行总结、提炼。数据挖掘，一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。现有的搜索工具中，尚未出现基于数据挖掘来在搜索结果中展现有关搜索关键词的概要性观点的技术方案。
技术实现思路
本申请实施例的目的在于提出一种基于数据挖掘的关联内容提取方法和装置。第一方面，本申请实施例提供了一种基于数据挖掘的关联内容提取方法，包括：获取待处理数据，待处理数据包括预设查询对象；确定待处理数据中，与预设查询对象关联的候选评论标签；从候选评论标签中筛选出评论标签；基于用户对各评论标签的点击量确定各评论标签的呈现顺序。在一些实施例中，确定待处理数据中，与预设查询对象关联的候选评论标签，包括：基于自然语言处理方法，从待处理数据中提取出与预设查询对象关联的候选评论标签。在一些实施例中，从候选评论标签中筛选出评论标签，包括：基于预设匹配规则，从候选评论标签中去除与预设查询对象不相符的候选评论标签以筛选出评论标签。在一些实施例中，待处理数据包括对预设查询对象的评论数据，方法还包括：从预设的热点数据源获取包含预设查询对象的评论数据；...
基于数据挖掘的关联内容提取方法和装置

【技术保护点】
一种基于数据挖掘的关联内容提取方法，其特征在于，包括：获取待处理数据，所述待处理数据包括预设查询对象；确定所述待处理数据中，与所述预设查询对象关联的候选评论标签；从所述候选评论标签中筛选出评论标签；基于用户对各所述评论标签的点击量确定各所述评论标签的呈现顺序。

【技术特征摘要】
1.一种基于数据挖掘的关联内容提取方法，其特征在于，包括：获取待处理数据，所述待处理数据包括预设查询对象；确定所述待处理数据中，与所述预设查询对象关联的候选评论标签；从所述候选评论标签中筛选出评论标签；基于用户对各所述评论标签的点击量确定各所述评论标签的呈现顺序。2.根据权利要求1所述的方法，其特征在于，所述确定所述待处理数据中，与所述预设查询对象关联的候选评论标签，包括：基于自然语言处理方法，从所述待处理数据中提取出与所述预设查询对象关联的候选评论标签。3.根据权利要求1所述的方法，其特征在于，所述从所述候选评论标签中筛选出评论标签，包括：基于预设匹配规则，从所述候选评论标签中去除与所述预设查询对象不相符的候选评论标签以筛选出所述评论标签。4.根据权利要求1-3任意一项所述的方法，其特征在于，所述待处理数据包括对所述预设查询对象的评论数据，所述方法还包括：从预设的热点数据源获取包含所述预设查询对象的评论数据；确定各所述评论数据的权重；以及基于各所述评论数据的权重确定各所述评论数据的展示顺序。5.根据权利要求4所述的方法，其特征在于，所述从预设的热点数据源获取包含所述预设查询对象的评论数据，包括：从预设的热点数据源获取包含所述预设查询对象的候选评论数据；以及基于每一条所述候选评论数据的页面浏览量，从所述候选评论数据中确定出所述评论数据。6.根据权利要求4所述的方法，其特征在于，所述确定各所述评论数据的权重，包括基于以下任意一者确定各所述评论数据的权重：基于所述评论数据中是否具有与所述预设查询对象的共现次数超过预设次数的热点词，确定所述评论数据的权重；基于机器学习算法，确定所述评论数据的质量分值，并基于所述质量分值来确定所述评论数据的权重；以及基于用户对所述评论数据的点击量，确定所述评论数据的权重。7.根据权利要求4-6任意一项所述的方法，其特征在于，还包括：基于自然语言处理工具确定各所述评论数据的情感倾向，并基于各所述评论数据的情感倾向确定所述预设查询对象的好评率。8.根据权利要求7所述的方法，其特征在于，还包括：基于各预设时段内的所述预设查询对象的好评率生成所述预设查询对象的好评率曲线。9.一种基于数据挖掘的关联内容提取装置，其特征在于，包括：待处理数据获取单元，用于获取待处理数据，所述待处理数据包括预设查询对象；确定单元，用于确定所述待处理数据中，与所述预设查询对象关联的候选评论标签...

【专利技术属性】
技术研发人员：徐伟建，刘建林，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人