用于问答的数据处理方法以及装置、设备、存储介质制造方法及图纸

技术编号:24497941 阅读:28 留言:0更新日期:2020-06-13 03:48
本申请公开了一种用于问答的数据处理方法以及装置、设备、存储介质。该方法包括获取问答对数据;根据所述问答对数据,生成初始问答对集合;将所述初始问答对集合拆分为问题集合和答案集合;对所述问题集合聚类,提取得到问题簇集合;根据经过预设处理后的问答对集合和所述问题簇集合,生成带有答案的问题簇集合。本申请解决了对用于问答的数据没有进行较好利用的技术问题。通过本申请减少人工构建知识的成本。同时抽取得到的热点问答对,减少了企业根据文档条例或者根据记忆编纂知识的人力成本,且生成的知识点即保证了丰富度。

Data processing methods, devices, equipment and storage media for Q & A

【技术实现步骤摘要】
用于问答的数据处理方法以及装置、设备、存储介质
本申请涉及人工智能领域,具体而言,涉及一种用于问答的数据处理方法以及装置、设备、存储介质。
技术介绍
相关技术中常见的企业客服系统是由两种方式组成,机器人客服回答大量常规问题,客服解决特殊化个性问题作为补充。由于客服服务方式便捷化,且客服系统承载量的增强,访客和问题量也指数级的增长。这些对话数据包含了访客的问题和客服的解答,被认为是半结构化的状态,如果能有效的进行挖掘可以产生很大的商业价值。专利技术人发现,针对对话数据的挖掘,往往只是单纯对访客问题进行抽取和聚合操作,只关注了问题忽略了对话中的答案,对话中存在的关联信息没有被利用到。针对相关技术中对用于问答的数据没有进行较好利用的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种用于问答的数据处理方法以及装置、设备、存储介质,以解决对用于问答的数据没有进行较好利用的问题。为了实现上述目的,根据本申请的一个方面,提供了一种用于问答的数据处理方法。根据本申请的用于问答的数据处理方法包括:获取问答对候选集;基于语义对所述问答候选集中的问题进行挖掘;基于统计对所述问答候选集中的答案进行挖掘;根据挖掘结果,生成热点问答对数据集。根据本申请的一种用于问答的数据处理方法,包括:获取问答对数据,其中所述问答对数据中包括至少一个问题和至少一个答案;根据所述问答对数据,生成初始问答对集合;将所述初始问答对集合拆分为问题集合和答案集合;对所述问题集合聚类,提取得到问题簇集合;根据经过预设处理后的问答对集合和所述问题簇集合,生成带有答案的问题簇集合;其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。进一步地,对所述问题集合聚类时还包括,对所述问题集合进行统计和去重,获得种子问题集合;对所述种子问题集合进行聚类操作,并对聚类形成的簇进行关键词提取,形成问题簇集合。进一步地,对所述问题集合聚类,提取得到问题簇集包括:将问题簇集合中簇的关键词集合进行统计和去重,得到关键词追踪簇。进一步地,对所述问题集合聚类时还包括,对所述问题集合进行统计和去重,获得种子问题集合;将所述种子问题集合与所述初始问答对集合进行匹配;根据匹配结果,生成经过预设处理后的问答对集合。进一步地,根据经过预设处理后的问答对集合还包括:对所述答案集合进行统计和去重,获取种子答案;根据所述种子答案,对所述初始问答对集合进行补充。为了实现上述目的,根据本申请的另一方面,提供了一种用于问答的数据处理装置。根据本申请的用于问答的数据处理装置包括:候选集获取模块,用于获取问答对候选集;第一挖掘模块,用于基于语义对所述问答候选集中的问题进行挖掘;第二挖掘模块,用于基于统计对所述问答候选集中的答案进行挖掘;结果生成模块,用于根据挖掘结果,生成热点问答对数据集。根据本申请的用于问答的数据处理装置,包括:获取模块,用于获取问答对数据,其中所述问答对数据中包括至少一个问题和至少一个答案;第一生成模块,用于根据所述问答对数据,生成初始问答对集合;拆分模块,用于将所述初始问答对集合拆分为问题集合和答案集合;聚类模块,用于对所述问题集合聚类,提取得到问题簇集合;第二生成模块,用于根据经过预设处理后的问答对集合和所述问题簇集合,生成带有答案的问题簇集合;其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。为了实现上述目的,根据本申请的又一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的用于问答的数据处理方法的步骤。为了实现上述目的,根据本申请的再一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的用于问答的数据处理方法的步骤。在本申请实施例中用于问答的数据处理方法以及装置、设备、存储介质,通过从客服对话数据中抽取热问答对;对问答对集合进行二次聚合挖掘,获取质量高且热度大的问答对的簇集合;同时对问答对的簇集合进行簇主题词抽取,并对簇主题词进行统计后,获取热度靠前的关键词,进行反向追踪原始的簇做词和簇的关联,进而解决了对用于问答的数据没有进行较好利用的技术问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的用于问答的数据处理方法流程示意图;图2是根据本申请实施例的用于问答的数据处理装置结构示意图;图3是根据本申请实施例的用于问答的数据处理方法整体流程示意图;图4是根据本申请实施例的用于问答的数据处理方法中数据流示意图;图5是根据本申请实施例的用于问答的数据处理方法中的初始状态下的数据情况示意图;图6是根据本申请实施例的用于问答的数据处理方法中的挖掘后的数据情况示意图;图7是根据本申请实施例的设备结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连本文档来自技高网
...

【技术保护点】
1.一种用于问答的数据处理方法,其特征在于,包括:/n获取问答对候选集;/n基于语义对所述问答候选集中的问题进行挖掘;/n基于统计对所述问答候选集中的答案进行挖掘;/n根据挖掘结果,生成热点问答对数据集。/n

【技术特征摘要】
1.一种用于问答的数据处理方法,其特征在于,包括:
获取问答对候选集;
基于语义对所述问答候选集中的问题进行挖掘;
基于统计对所述问答候选集中的答案进行挖掘;
根据挖掘结果,生成热点问答对数据集。


2.一种用于问答的数据处理方法,其特征在于,包括:
获取问答对数据,其中所述问答对数据中包括至少一个问题和至少一个答案;
根据所述问答对数据,生成初始问答对集合;
将所述初始问答对集合拆分为问题集合和答案集合;
对所述问题集合聚类,提取得到问题簇集合;
根据经过预设处理后的问答对集合和所述问题簇集合,生成带有答案的问题簇集合;其中所述经过预设处理后的问答对集合是指在所述初始问答对集合上经过补充或者清洗过滤后得到的处理结果。


3.根据权利要求2所述的数据处理方法,其特征在于,对所述问题集合聚类时还包括,对所述问题集合进行统计和去重,获得种子问题集合;
对所述种子问题集合进行聚类操作,并对聚类形成的簇进行关键词提取,形成问题簇集合。


4.根据权利要求2所述的数据处理方法,其特征在于,对所述问题集合聚类,提取得到问题簇集包括:
将问题簇集合中簇的关键词集合进行统计和去重,得到关键词追踪簇。


5.根据权利要求2所述的数据处理方法,其特征在于,对所述问题集合聚类时还包括,对所述问题集合进行统计和去重,获得种子问题集合;
将所述种子问题集合与所述初始问答对集合进行匹配;
根据匹配结果,生成经过预设处理后的问答对集合。


6.根据权利要求2所...

【专利技术属性】
技术研发人员:杨萌杜振东王清琛
申请(专利权)人:南京云问网络技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1