一种数据处理方法和装置制造方法及图纸

技术编号:13972192 阅读:184 留言:0更新日期:2016-11-10 22:10
本发明专利技术公开了一种数据处理方法和装置,所述方法包括:获取实时的用户交互日志数据;按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;在指定网站抓取所述目标问题对应的结果数据;基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。本发明专利技术所述方法通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;且在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率,从而提高了智能问答系统知识库的维护效率,提升了用户的使用体验。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种数据处理方法和装置
技术介绍
知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统。智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。所以,知识库中是否能够给出线上用户问题的准确或合理的答案,是衡量智能问答系统性能的一项重要指标。为了保障智能问答系统的性能,需要一种机制,判断智能问答系统是否给出了准确或合理的答案,并基于回答质量不高的问题,重新确定该问题的答案,更新知识库。目前,通常都是采用批处理结合人工的机制来实现,具体的:通过批处理,每天对之前一天的日志数据进行分析,找出回答质量不好或无法回复的问题,添加到数据库,然后由知识工程师人工通过搜索引擎进行搜索相关问题,来添加对应的标准问和答案。此机制存在两个方面的不足:首先,时效性不高,不能实时对线上用户的问答质量不高的问题进行及时分析;其次,依赖人工搜索,处理效率低下。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种解决上述问题或者部分解决上述问题的数据处理方法和装置。依据本专利技术的一个方面,提供一种数据处理方法,包括:获取实时的用户交互日志数据;按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;在指定网站抓取所述目标问题对应的结果数据;基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。可选地,所述获取实时的用户交互日志数据,具体包括:在存储用户交互日志的各服务器中设置日志收集代理节点,获取所述代理节点实时收集并上报的用户交互日志数据。可选地,得到所述目标问题后,所述方法还包括:对所述目标问题进行分词处理,得到多个目标词;抓取所述目标问题对应的结果数据包括抓取与至少部分目标词对应的结果数据。可选地,所述方法还包括:在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列,并按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列,并按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。可选地,所述分析过滤策略包括如下策略之一或者如下多种策略的组合:策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。可选地,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。可选地,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。可选地,利用Flume日志收集系统获取实时的用户交互日志数据;采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。依据本专利技术的另一个方面,提供一种数据处理装置,包括:数据获取模块,用于获取实时的用户交互日志数据;数据处理模块,用于按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;结果抓取模块,用于在指定网站抓取所述目标问题对应的结果数据;管理模块,用于基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。可选地,所述数据获取模块,具体用于获取日志收集代理节点实时收集并上报的用户交互日志数据;其中,所述日志收集代理节点设置在存储有用户交互日志的各服务器中。可选地,所述数据处理模块,还用于在得到所述目标问题后,对所述目标问题进行分词处理,得到多个目标词;所述结果抓取模块抓取所述目标问题对应的结果数据时包括抓取与至少部分目标词对应的结果数据。可选地,所述数据获取模块,还用于在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列;所述数据处理模块,还用于按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;以及将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列;所述结果抓取模块,还用于按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。可选地,所述数据处理模块应用的分析过滤策略包括如下策略之一或者如下多种策略的组合:策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。可选地,所述管理模块,具体用于将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。可选地,所述管理模块,具体用于将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。可选地,所述数据获取模块,具体用于利用Flume日志收集系统获取实时的用户交互日志数据;所述数据处理模块,具体用于采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。与现有技术相比,本专利技术的有益效果如下:首先,本专利技术通过对用户交互日志进行实时获取及实时分析,提高了数据处理的时效性;其次,本专利技术在数据获取、分析及结果数据抓取全过程,无需人工参与,提高了数据处理效率;再次,利用本专利技术所述的数据处理方案,提高了智能问答系统知识库的维护效率,从而可以为用户提供更准确的问题答案,提高了用户的使用体验。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种数据处理方法的流程图;图2为本专利技术实施例提供的数据处理方法应用的系统架构图;图3为本专利技术实施例中Flume日志本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:获取实时的用户交互日志数据;按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;在指定网站抓取所述目标问题对应的结果数据;基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取实时的用户交互日志数据;按设定的分析过滤策略,对所述用户交互日志数据进行实时过滤,以得到目标问题;在指定网站抓取所述目标问题对应的结果数据;基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展。2.如权利要求1所述的方法,其特征在于,所述获取实时的用户交互日志数据,具体包括:在存储用户交互日志的各服务器中设置日志收集代理节点,获取所述代理节点实时收集并上报的用户交互日志数据。3.如权利要求1或2所述的方法,其特征在于,得到所述目标问题后,所述方法还包括:对所述目标问题进行分词处理,得到多个目标词;抓取所述目标问题对应的结果数据包括抓取与至少部分目标词对应的结果数据。4.如权利要求1所述的方法,其特征在于,还包括:在获取实时的用户交互日志数据后,将所述实时的用户交互日志数据存入第一消息缓存队列,并按照订阅日志主题的方式,从所述第一消息缓存队列中提取用户交互日志数据,以进行实时过滤;将过滤得到的目标问题作为待处理问题发送到第二消息缓存队列,并按照订阅待处理问题主题的方式,从第二消息缓存队列中提取问题,以进行问题的结果数据抓取。5.如权利要求1或2或4所述的方法,其特征在于,所述分析过滤策略包括如下策略之一或者如下多种策略的组合:策略1:按照设定的回答类型,在用户交互日志数据中的用户问题中过滤出目标问题;策略2:按照设定的关键词,在用户交互日志数据中的用户问题中过滤出目标问题;策略3:按照回答内容与问题的语义相似度,在用户交互日志数据中的用户问题中过滤出目标问题;策略4:按照从用户交互日志数据中分析得到的情感信息,在用户交互日志数据的用户问题中过滤出目标问题。6.如权利要求1所述的方法,其特征在于,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据,以新增知识点的方式存入所述知识库。7.如权利要求1所述的方法,其特征在于,所述基于所述目标问题及其对应的结果数据,对知识库的知识点进行扩展,包括:将所述目标问题及其对应的结果数据存入关系型数据库,待所述关系型数据库中的结果数据被审核校验通过后,以新增知识点的方式存入所述知识库。8.如权利要求1所述的方法,其特征在于,利用Flume日志收集系统获取实时的用户交互日志数据;采用Spark Streaming技术,对所述用户交互日志数据进行实时过滤。9.一种数据处理装置,其特征在于,包括:数据获取模块,用于获取实时的用户交...

【专利技术属性】
技术研发人员:李广增张磊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1