数据挖掘方法、装置和设备制造方法及图纸

技术编号:21629006 阅读:28 留言:0更新日期:2019-07-17 11:06
本发明专利技术实施例提供一种数据挖掘方法、装置和设备,该方法包括:从语料样本集合中提取多个关键词;在包含多个关键词中至少一个关键词的每条语料样本中,围绕每条语料样本中包含的关键词获取预设数量的候选词语,候选词语中包括被围绕的关键词;对获取的全部候选词语进行关联分析,以获得与多个关键词对应的搭配关系。通过提取关键词,以便围绕关键字进行关联分析所需的候选词语的选取,限制了关联分析的数据范围,即降低了关联分析的输入噪音,有利于保证关联分析结果即词语搭配关系挖掘结果的准确性。

Data mining methods, devices and devices

【技术实现步骤摘要】
数据挖掘方法、装置和设备
本专利技术涉及互联网
,尤其涉及一种数据挖掘方法、装置和设备。
技术介绍
用户通过电子商务平台进行网上购物已经成为用户目前主流的一种购物方式。为了提高用户购物体验,电子商务平台会提供在线交互工具,以供用户就自己关心的问题咨询商家。而且,电子商务平台还会提供自动问答技术,以便及时、自动地响应用户的咨询问题。用户购物时往往会就商品信息、当前优惠活动、物流信息等问题咨询商家,这些咨询问题往往有很高的重复性,如果能将用户的高频问法挖掘整理,将有利于采用自动问答技术对用户的咨询问题进行自动回复,或者,也便于对用户咨询问题的分类汇总。而用户的高频问法常常表现为特定词语的搭配,从而,对用户的高频问法挖掘即为对词语搭配关系的挖掘。因此,如何准确地挖掘出常用的词语搭配关系是亟待解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据挖掘方法、装置和设备,用以准确挖掘出诸如用户购物等应用场景下的常见词语搭配关系。第一方面,本专利技术实施例提供一种数据挖掘方法,包括:从语料样本集合中提取多个关键词;在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。第二方面,本专利技术实施例提供一种数据挖掘装置,包括:提取模块,用于从语料样本集合中提取多个关键词;获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。在一个可能的设计中,上述数据挖掘装置的结构中包括处理器和存储器,所述存储器用于存储支持数据挖掘装置执行上述第一方面中数据挖掘方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据挖掘装置还可以包括通信接口,用于数据挖掘装置与其他设备或通信网络通信。本专利技术实施例提供了一种计算机存储介质,用于储存数据挖掘装置所用的计算机软件指令,其包含用于执行上述第一方面中数据挖掘方法所涉及的程序。第三方面,本专利技术实施例提供一种数据挖掘方法,应用于服务器中,包括:采集来自客户端的语料样本,以生成语料样本集合;从所述语料样本集合中提取多个关键词;在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;将所述搭配关系发送至所述客户端。第四方面,本专利技术实施例提供一种数据挖掘装置,应用于服务器中,包括:生成模块,用于采集来自客户端的语料样本,以生成语料样本集合;提取模块,用于从所述语料样本集合中提取多个关键词;获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;发送模块,用于将所述搭配关系发送至所述客户端。第五方面,本专利技术实施例提供一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第三方面所述的数据挖掘方法。第六方面,本专利技术实施例提供一种数据挖掘方法,应用于客户端中,包括:接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;接收所述服务器发送的搭配关系。第七方面,本专利技术实施例提供一种数据挖掘装置,应用于服务器中,包括:接收模块,用于接收服务器发送的多个关键词,所述多个关键词是所述服务器从预先生成的语料样本集合中提取的;发送模块,用于若用户输入的语料样本中包含所述多个关键词中至少一个关键词,则将所述语料样本发送至所述服务器,以使所述服务器更新所述语料样本集合,并在其中包含至少一个关键词的语料样本中获取与所包含的关键词对应的候选词语集,以及对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系;所述接收模块,还用于接收所述服务器发送的搭配关系。第八方面,本专利技术实施例提供一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第六方面所述的数据挖掘方法。本专利技术实施例提供的数据挖掘方法、装置和设备,以购物场景为例,用户的咨询语句可以作为语料样本,从而,可以通过收集大量用户的历史咨询语句来获得语料样本集合。为了挖掘出该语料样本集合所反映出的词语搭配关系,首先可以通过关键词提取方法从语料样本集合中提取出多个关键词,这些关键词往往是出现频率较高的具有实际意义的词,即非停用词。之后,针对语料样本集合中包含至少一个关键词的任一语料样本,获取位于该语料样本中包含的关键词的预设窗口范围内的词语以形成与该关键词对应的候选词语集,即从每条语料样本中提取出与所包含的关键词位置邻近的多个词语,因为与关键词具有搭配关系的词语往往集中在关键词的附近。最后,对获取的全部候选词语进行关联分析,以获得与多个关键词对应的搭配关系。本方案中,通过提取关键词,以便围绕关键字进行关联分析所需的候选词语集的构建,限制了关联分析的数据范围,即降低了关联分析的输入噪音,有利于保证关联分析结果即词语搭配关系挖掘结果的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的数据挖掘方法实施例一的流程图;图2为本专利技术实施例提供的数据挖掘方法实施例二的流程图;图3为关键词提取与扩展过程的示意图;图4为本专利技术实施例提供的数据挖掘装置的结构示意图;图5为与图4所示数据挖掘装置对应的电子设备的结构示意图;图6为本专利技术实施例提供的一种数据挖掘方法的交互流程图;图7为本专利技术实施例提供的一种终端设备的结构示意图;图8为本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本文档来自技高网...

【技术保护点】
1.一种数据挖掘方法,其特征在于,包括:从语料样本集合中提取多个关键词;在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,包括:从语料样本集合中提取多个关键词;在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。2.根据权利要求1所述的方法,其特征在于,所述从语料样本集合中提取多个关键词,包括:通过关键词提取方法从所述语料样本集合中提取种子关键词;从所述语料样本集合中获取与所述种子关键词之间的相似度满足预设要求的扩展关键词,所述多个关键词包括所述种子关键词和所述扩展关键词。3.根据权利要求2所述的方法,其特征在于,所述获取与所述语料样本中包含的关键词对应的候选词语集之前,还包括:将所述每条语料样本中包含的扩展关键词替换为对应的种子关键词。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于关键词筛选操作,对所述多个关键词进行筛选。5.根据权利要求1所述的方法,其特征在于,所述从语料样本集合中提取多个关键词之后,还包括:根据所述多个关键词对所述语料样本集合进行过滤处理,以获得包含所述多个关键词中至少一个关键词的各语料样本。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获得与所述多个关键词对应的搭配关系之后,还包括:在所述语料样本集合中筛选出包含同一搭配关系的语料样本;根据所述搭配关系在筛选出的语料样本中的表现形式,确定与所述搭配关系对应的搭配模板。7.一种数据挖掘装置,其特征在于,包括:提取模块,用于从语料样本集合中提取多个关键词;获取模块,用于在包含所述多个关键词中至少一个关键词的语料样本中,获取与所述语料样本中包含的关键词对应的候选词语集,所述候选词语集中包含所述关键词以及位于所述关键词预设窗口范围内的词语;分析模块,用于对获取的全部候选词语集进行关联分析,以获得与所述多个关键词对应的搭配关系。8.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至6中...

【专利技术属性】
技术研发人员:赵中州陈海青
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1