一种数据处理方法及装置制造方法及图纸

技术编号:22054947 阅读:23 留言:0更新日期:2019-09-07 15:08
本发明专利技术实施例提供了一种数据处理方法及装置,本发明专利技术涉及大数据技术领域,方法包括:获取第一文件数据,第一文件数据为用户行为日志数据;读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;将多个子文件写入目标数据库,每个子文件设有时间段标识;根据预设的筛选条件筛选目标数据库,得到与筛选条件相符合的用户行为日志数据,筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。本发明专利技术实施例提供的技术方案能够解决现有技术中用户行为日志文件处理效率低的问题。

A Data Processing Method and Device

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及大数据
,尤其涉及一种数据处理方法及装置。
技术介绍
目前,windows平台上的客服服务器,随着访问量和数据量的快速增长,用于记录用户行为的日志文件的数据量变得非常大,从而使得用户行为日志文件无法直接下载到本地,或者文件太大导致读取速度极慢,从而使得用户行为日志文件的处理效率低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据处理方法及装置,用以解决现有技术中用户行为日志文件处理效率低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种数据处理方法,所述方法包括:获取第一文件数据,所述第一文件数据为用户行为日志数据;读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:读取预先设置的分割份数;按照所述分割份数平均分割所述第一文件数据,得到多个子文件。进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:获取所述第一文件数据的文件容量大小;读取预先设置的子文件的容量阈值;根据所述预先设置的子文件的容量阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的容量值皆小于所述容量阈值。进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:获取所述第一文件数据的行数;读取预先设置的子文件的行数阈值;根据所述预先设置的子文件的行数阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的行数值皆小于所述行数阈值。进一步地,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件之后,所述方法包括:按照预设的文件关联长度,对每个所述子文件的两端进行分割,得到关联上文及关联下文;将每个所述子文件与相邻的前一个所述子文件的关联下文、相邻的后一个所述子文件的关联上文进行拼接处理,得到拼接文件;用所述拼接文件替换未分割的所述子文件。进一步地,在所述根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据之前,所述方法包括:提取每条所述用户行为日志数据中的多个关键词;分析所述关键词,得到所述用户行为日志数据的用户行为倾向;根据所述用户行为日志数据的用户行为倾向进行聚类分析,得到所述用户行为分组,其中,所述用户行为分组包括好评、投诉、抱怨、意见反馈;根据所述用户行为分组标注所述用户行为日志数据。进一步地,所述将多个所述子文件写入目标数据库,每个子文件设有时间段标识,包括:获取所述子文件中的第一条用户行为日志数据的第一生成时间及所述子文件中的最后一条用户行为日志数据的第二生成时间,并将所述第一生成时间及所述第二生成时间作为所述子文件的时间段标识。为了实现上述目的,根据本专利技术的一个方面,提供了一种数据处理装置,所述装置包括:获取单元,用于获取第一文件数据,所述第一文件数据为用户行为日志数据;读取单元,用于读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;分割单元,用于按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;写入单元,用于将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;筛选单元,用于根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。为了实现上述目的,根据本专利技术的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的数据处理方法。为了实现上述目的,根据本专利技术的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理方法的步骤。在本方案中,当用户行为日志文件因为数据过大而无法读取时,通过根据预设的分割规则对大型文件进行分割,分割成多个小文件,再将小文件写入目标数据库,并通过预设的筛选条件来筛选所述目标数据库中的数据,从而查询得到与筛选条件相符合的用户行为日志数据。从而实现快速筛选出所需的数据,不会因为数据过大而影响数据处理效率,提高数据处理效率。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例提供的一种可选的数据处理方法的流程图;图2是本专利技术实施例提供的一种可选的数据处理装置的示意图;图3是本专利技术实施例提供的一种可选的计算机设备的示意图。【具体实施方式】为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本专利技术实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。图1是根据本专利技术实施例的一种数据处理方法的流程图,如图1所示,该方法包括:步骤S101,获取第一文件数据,第一文件数据为用户行为日志数据;步骤S102,读取第一文件数据的分割规则,分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;步骤S103,按照分割规则对第一文件数据进行分割,得到多个子文件,其中,每个子文件包括至少一条用户行为日志数据;步骤S104,将多个本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一文件数据,所述第一文件数据为用户行为日志数据;读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一文件数据,所述第一文件数据为用户行为日志数据;读取所述第一文件数据的分割规则,所述分割规则为固定份数分割、固定容量分割、固定行数分割中的至少一种;按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,其中,每个所述子文件包括至少一条用户行为日志数据;将多个所述子文件写入目标数据库,每个所述子文件设有时间段标识;根据预设的筛选条件筛选所述目标数据库,得到与所述筛选条件相符合的用户行为日志数据,所述筛选条件包括用户信息、时间段信息、用户行为分组中的任意一种。2.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:读取预先设置的分割份数;按照所述分割份数平均分割所述第一文件数据,得到多个子文件。3.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:获取所述第一文件数据的文件容量大小;读取预先设置的子文件的容量阈值;根据所述预先设置的子文件的容量阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的容量值皆小于所述容量阈值。4.根据权利要求1所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件,包括:获取所述第一文件数据的行数;读取预先设置的子文件的行数阈值;根据所述预先设置的子文件的行数阈值分割所述第一文件数据,得到多个子文件,其中,所有的所述子文件的行数值皆小于所述行数阈值。5.根据权利要求2~4中任意一项所述的方法,其特征在于,所述按照所述分割规则对所述第一文件数据进行分割,得到多个子文件之后,所述方法包括:按照预设的文件关联长度,对每个所述子文件的两端进行分割,得到关联上文及关联下文;将每个所述子文件与相邻的前一个所述子文件的关联下文、相邻的后一个所述子文件的关联上文进行拼接处理,得到拼接文件;用所述拼接文件替换未分...

【专利技术属性】
技术研发人员:陈义哲
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1