数据挖掘方法、装置、服务器及可读存储介质制造方法及图纸

技术编号:24855489 阅读:21 留言:0更新日期:2020-07-10 19:08
本申请实施例提供了一种数据挖掘方法、装置、服务器及可读存储介质,通过获取目标对话数据并从目标对话数据中抽取问题数据,并对问题数据进行分词,得到由多个分词组成的分词结果,从而根据分词结果构建对应的频繁模式树,并从构建的频繁模式树中挖掘频繁项集合,其中,该频繁项集合包括多个频繁项,每个频繁项对应一个数据挖掘的知识点。如此,本申请能够精准全面地挖掘建单轮对话中的知识点,大大提高知识点挖掘的效率和质量,以便更加有效地解决用户的问题,提高用户的满意度。

【技术实现步骤摘要】
数据挖掘方法、装置、服务器及可读存储介质
本申请涉及计算机
,具体而言,涉及一种数据挖掘方法、装置、服务器及可读存储介质。
技术介绍
目前,随着智能终端的普及,各种提供生活便利服务的应用程序(Application,简称APP)也层出不穷,为用户的吃穿住行提供服务(例如出行服务、外卖服务等)。用户在使用这些服务的过程中,一般会选择客服系统中的多轮对话、单轮对话(QA)和闲聊机器人等咨询待解决的问题。其中,单轮对话在解决用户问题、实现智能化服务方面发挥了巨大的作用,而知识点是单轮对话中最重要的一部分。如何精准全面地挖掘建单轮对话中的知识点,以便更加有效地解决用户的问题,提高用户的满意度,是本领域技术人员亟待解决的技术问题。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种数据挖掘方法、装置、服务器及可读存储介质,以精准全面地挖掘建单轮对话中的知识点,以便更加有效地解决用户的问题,提高用户的满意度。根据本申请实施例的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个本文档来自技高网...

【技术保护点】
1.一种数据挖掘方法,其特征在于,应用于服务器,所述方法包括:/n获取目标对话数据并从所述目标对话数据中抽取问题数据;/n对所述问题数据进行分词,得到由多个分词组成的分词结果;/n根据所述分词结果构建对应的频繁模式树,并从构建的频繁模式树中挖掘频繁项集合,其中,该频繁项集合包括多个频繁项,每个频繁项对应一个数据挖掘的知识点。/n

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,应用于服务器,所述方法包括:
获取目标对话数据并从所述目标对话数据中抽取问题数据;
对所述问题数据进行分词,得到由多个分词组成的分词结果;
根据所述分词结果构建对应的频繁模式树,并从构建的频繁模式树中挖掘频繁项集合,其中,该频繁项集合包括多个频繁项,每个频繁项对应一个数据挖掘的知识点。


2.根据权利要求1所述的数据挖掘方法,其特征在于,所述获取目标对话数据的步骤,包括:
从历史数据库中获取各个对话场景中的人机历史对话;
从每个对话场景的人机历史对话中获取对话请求方的历史对话作为所述目标对话数据。


3.根据权利要求1所述的数据挖掘方法,其特征在于,所述从所述目标对话数据中抽取问题数据的步骤,包括:
针对所述目标对话数据中的每条对话语句,将该条对话语句与预设关键词表中的每个关键词进行匹配;
若该条对话语句与所述预设关键词表中的任意一个关键词匹配,则将该条对话语句确定为问题语句;
根据确定的问题语句得到所述问题数据。


4.根据权利要求1所述的数据挖掘方法,其特征在于,所述从所述目标对话数据中抽取问题数据的步骤,包括:
针对所述目标对话数据中的每条对话语句,判断该条对话语句的语句长度是否在预设长度范围内;
若该条对话语句的语句长度在预设长度范围内,则将该条对话语句确定为问题语句;
根据确定的问题语句得到所述问题数据。


5.根据权利要求1所述的数据挖掘方法,其特征在于,所述从所述目标对话数据中抽取问题数据的步骤,包括:
针对所述目标对话数据中的每条对话语句,将该条对话语句与预设关键词表中的每个关键词进行匹配;
若该条对话语句与所述预设关键词表中的任意一个关键词匹配,则判断该条对话语句的语句长度是否在预设长度范围内;
若该条对话语句的语句长度在预设长度范围内,则将该条对话语句确定为问题语句;
根据确定的问题语句得到所述问题数据。


6.根据权利要求1所述的数据挖掘方法,其特征在于,所述对所述问题数据进行分词,得到由多个分词组成的分词结果的步骤,包括:
根据预先配置的场景词库表对所述问题数据进行分词,得到由多个分词组成的分词结果,其中,所述场景词库表包括多个与所述问题数据对应的目标服务相关的多个专用场景词;或者
根据预先训练的场景词发现模型对所述问题数据进行分词,得到由多个分词组成的分词结果。


7.根据权利要求6所述的数据挖掘方法,其特征在于,所述场景词发现模型通过以下方式训练得到:
配置条件随机场算法CRF模型;
以各个对话场景的历史对话数据为模型输入,以各个对话场景的历史对话数据中的多个专用场景词为模型输出,迭代训练所述CRF模型,得到所述场景词发现模型。


8.根据权利要求1-7中任意一项所述的数据挖掘方法,其特征在于,所述根据所述分词结果构建对应的频繁模式树,并从构建的频繁模式树中挖掘频繁项集合的步骤,包括:
统计所述分词结果中每个分词的支持度,所述支持度表示该分词在所述分词结果中出现的次数;
将每个分词按照支持度降序顺序依次插入到一棵以NULL为根结点的树中,构建频繁模式树,其中,所述频繁模式树包括NULL根节点及分支节点,所述NULL根节点为无效值,所述分支节点对应一个频繁项及其支持度;
从构建的频繁模式树中挖掘频繁项集合。


9.根据权利要求8所述的数据挖掘方法,其特征在于,所述从构建的频繁模式树中挖掘频繁项集合的步骤,包括:
针对构建的频繁模式树中的每个频繁项,构造该频繁项的条件模式基,并基于构造的条件模式基构造该频繁项的条件频繁模式树,其中,所述条件模式基为以该频繁项为后缀项并与该后缀项连接的多条前缀路径的路径集合;
基于每个构建的条件频繁模式树更新所述频繁模式树,并基于更新后的频繁模式树继续执行针对构建的频繁模式树中的每个频繁项,构造该频繁项的条件模式基,并基于构造的条件模式基构造该频繁项的条件频繁模式树的步骤,直到构造的条件频繁模式树为空或者只包含一条路径时,输出该条件频繁模式树对应的频繁项,以得到频繁项集合;
其中,当所述构造的条件频繁模式树为空时,将该条件频繁模式树的前缀路径确定为频繁项,当所述构造的条件频繁模式树只包含一条路径时,将所有组合路径与该条件频繁模式树的前缀路径连接作为频繁项。


10.根据权利要求9所述的数据挖掘方法,其特征在于,所述基于每个构建的条件频繁模式树更新所述频繁模式树的步骤之后,所述方法还包括:
滤除所述频繁模式树中支持度低于预设支持度的频繁项。


11.根据权利要求1所述的数据挖掘方法,其特征在于,所述根据所述分词结果构建对应的频繁模式树,并从构建的频繁模式树中挖掘频繁项集合的步骤之后,所述方法还包括:
将所述频繁项集合中相同含义的频繁项进行合并,得到合并后的频繁项集合;
其中,所述将所述频繁项集合中相同含义的频繁项进行合并,得到合并后的频繁项集合的步骤,包括:
生成每个频繁项相关的问题集;
计算每个频繁项相关的问题集的句向量;
根据计算得到的每个频繁项相关的问题集的句向量,计算任意两个频繁项相关的问题集的句向量之间的余弦距离,并将所述余弦距离作为所述任意两个频繁项相关的问题集的句向量之间的相似度;
判断所述相似度是否大于预设相似度,若所述相似度不大于预设相似度,则将相应的两个频繁项中的任意一个频繁项删除。


12.根据权利要求11所述的数据挖掘方法,其特征在于,所述计算每个频繁项相关的问题集的句向量的步骤,包括:
针对每个频繁项相关的问题集,将该频繁项相关的问题集中每个问题语句分别进行分词处理,得到多个分词;
将每个分词输入到预先训练的词向量模型fasttext模型中,得到每个分词的分词向量;
根据每个分词的分词向量得到该频繁项相关的问题集的句向量。


13.根据权利要求11所述的数据挖掘方法,其特征在于,所述将所述频繁项集合中相同含义的频繁项进行合并,得到合并后的频繁项集合的步骤之后,所述方法还包括:
获取并存储每个频繁项的问题集中各个问题的问题解决信息;
在接收到服务请求方终端发送的预设问题时,将该预设问题与每个频繁项的问题集中各个问题进行匹配,并将与该预设问题匹配的问题的问题解决信息发送给所述服务请求方终端。


14.一种数据挖掘装置,其特征在于,应用于服务器,所述装置包括:
第一获取模块,用于获取目标对话数据并从所述目标对话数据中抽取问题数据...

【专利技术属性】
技术研发人员:吴康康王鹏柳俊宏王杰
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1