特征数据获取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22564860 阅读:13 留言:0更新日期:2019-11-16 11:54
本申请涉及大数据处理,提供了一种特征数据获取方法、装置、计算机设备和存储介质。所述方法包括:获取历史数据,对历史数据预处理,得到离线数据,根据离线数据得到预设特征对应的离线数据序列,将离线数据序列写入数据库中;获取第一时间点,第一时间点是离线数据序列写入数据库完成时的时间点,将第一时间点作为目标时间戳;获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列;从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。采用本方法能够使得到的特征数据更加精确。

Characteristic data acquisition method, device, computer equipment and storage medium

The application relates to big data processing, and provides a feature data acquisition method, device, computer equipment and storage medium. The method includes: acquiring the historical data, preprocessing the historical data, obtaining the offline data, obtaining the offline data sequence corresponding to the preset characteristics according to the offline data, writing the offline data sequence into the database; acquiring the first time point, the first time point is the time point when the offline data sequence is written into the database, taking the first time point as the target time stamp; acquiring the 2. Current system time point, compare the time relationship between the second current system time point and the target time stamp, get the corresponding time period according to the comparison results, get the incremental data in the time period, and get the real-time data sequence corresponding to the preset features according to the incremental data; select the data sequence with the preset sequence length from the offline data sequence and the real-time data sequence, and get the special data Characteristic data series. This method can make the feature data more accurate.

【技术实现步骤摘要】
特征数据获取方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种特征数据获取方法、装置、计算机设备和存储介质。
技术介绍
机器学习都是通过历史数据在离线的情况下训练各种模型比如,传统的推荐模型一般通过集群使用hadoopMapReduce对用户行为数据每间隔一天进行一次离线训练,这些方法无法满足实时推荐的需求。目前。对于实时性的推荐需求,通过实时特征的更新方式通常是T+1(数据从产生到使用需要经过一个日终跑批,数据汇总得到的结果最多也只能是日报)的离线更新方式,即当天的数据无法得到实时的更新,导致得到的特征数据滞后性比较高,尤其是在新闻咨询场景,实时性要求更高,特征数据滞后性比较高导致特征数据精确性较低,影响特征数据的使用效果。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高特征数据精确性的特征数据获取方法、装置、计算机设备和存储介质。一种特征数据获取方法,所述方法包括:获取历史数据,对历史数据预处理,得到离线数据,根据离线数据得到预设特征对应的离线数据序列,将所述离线数据序列写入数据库中;获取第一时间点,第一时间点是离线数据序列写入数据库完成时的时间点,将第一时间点作为目标时间戳;获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列;从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。在其中一个实施例中,获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列,包括:当第二当前系统时间点在目标时间戳之前时,获取第一时间段的第一增量数据,第二时间段的第二增量数据和第三时间段的第三增量数据;根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。在其中一个实施例中,获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列,包括:当第二当前系统时间点在目标时间戳之后时,获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据;根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。在其中一个实施例中,从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列,包括:当实时数据序列长度小于预设序列长度时,根据实时数据序列长度和预设序列长度计算目标序列长度;从离线数据序列中依次选择目标序列长度的目标离线数据序列;根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列,并将第一特征数据序列存储到数据库中。在其中一个实施例中,从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列,包括:当实时数据序列长度未小于预设序列长度时,从实时数据序列中依次选择预设序列长度的目标实时数据序列;将目标实时数据序列作为第二特征数据序列,将第二特征数据序列存储到数据库中。在其中一个实施例中,在从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列之后,还包括:根据特征数据序列得到特征向量,将特征向量输入到推荐模型中,得到输出向量;推荐模型是根据离线数据序列使用深度神经网络算法训练得到的;根据输出向量得到推荐序列,将推荐序列发送到对应的推荐终端进行显示。在其中一个实施例中,在根据输出向量得到推荐序列,将推荐序列发送到对应的推荐终端进行显示之后,还包括:将特征向量作为推荐模型的输入,将输出向量作为推荐模型的标签进行训练,当达到预设条件时,得到更新的推荐模型。一种特征数据获取装置,装置包括:离线数据获取模块,用于获取历史数据,对历史数据预处理,得到离线数据,根据离线数据得到预设特征对应的离线数据序列,将所述离线数据序列写入数据库中;时间戳确定模块,用于获取第一时间点,第一时间点是离线数据序列写入数据库完成时的时间点,将第一时间点作为目标时间戳;实时数据获取模块,用于获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列;特征数据得到模块,用于从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取历史数据,对历史数据预处理,得到离线数据,根据离线数据得到预设特征对应的离线数据序列,将离线数据序列写入数据库中;获取第一时间点,第一时间点是离线数据序列写入数据库完成时的时间点,将第一时间点作为目标时间戳;获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列;从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取历史数据,对历史数据预处理,得到离线数据,根据离线数据得到预设特征对应的离线数据序列,将离线数据序列写入数据库中;获取第一时间点,第一时间点是离线数据序列写入数据库完成时的时间点,将第一时间点作为目标时间戳;获取第二当前系统时间点,将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据增量数据得到预设特征对应的实时数据序列;从离线数据序列和实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。上述特征数据获取方法、装置、计算机设备和存储介质,通过历史数据获取到离线数据序列,然后将第二当前系统时间点和目标时间戳的时间关系进行比较,根据比较结果得到对应的时间段,获取时间段内的增量数据,根据该增量数据得到实时数据序列,然后从离线数据序列和实时数据序列中选取预设序列长度的数据序列得到特征数据序列,能够使得到的特征数据序列更加精确。附图说明图1为一个实施例中特征数据获取方法的应用场景图;图2为一个实施例中特征数据获取方法的流程示意图;图3为一个实施例中得到第一实时数据序列的流程示意图;图4为一个实施例中得到第二实时数据序列的流程示意图;图5为一个实施例中得到第一特征数据序列的流程示意图;图6为一个实施例中得到第二特征数据序本文档来自技高网...

【技术保护点】
1.一种特征数据获取方法,所述方法包括:/n获取历史数据,对所述历史数据预处理,得到离线数据,根据所述离线数据得到预设特征对应的离线数据序列,将所述离线数据序列写入数据库中;/n获取第一时间点,所述第一时间点是所述离线数据序列写入所述数据库完成时的时间点,将所述第一时间点作为目标时间戳;/n获取第二当前系统时间点,将所述第二当前系统时间点和所述目标时间戳进行比较,根据比较结果得到对应的时间段,获取所述时间段内的增量数据,根据所述增量数据得到所述预设特征对应的实时数据序列;/n从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。/n

【技术特征摘要】
1.一种特征数据获取方法,所述方法包括:
获取历史数据,对所述历史数据预处理,得到离线数据,根据所述离线数据得到预设特征对应的离线数据序列,将所述离线数据序列写入数据库中;
获取第一时间点,所述第一时间点是所述离线数据序列写入所述数据库完成时的时间点,将所述第一时间点作为目标时间戳;
获取第二当前系统时间点,将所述第二当前系统时间点和所述目标时间戳进行比较,根据比较结果得到对应的时间段,获取所述时间段内的增量数据,根据所述增量数据得到所述预设特征对应的实时数据序列;
从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列,得到特征数据序列。


2.根据权利要求1所述的方法,其特征在于,所述获取第二当前系统时间点,将所述第二当前系统时间点和所述目标时间戳进行比较,根据比较结果得到对应的时间段,获取所述时间段内的增量数据,根据所述增量数据得到所述预设特征对应的实时数据序列,包括:
当所述第二当前系统时间点在所述目标时间戳之前时,获取第一时间段的第一增量数据,第二时间段的第二增量数据和第三时间段的第三增量数据;
根据所述第一增量数据、第二增量数据和第三增量数据得到所述预设特征对应的第一实时数据序列。


3.根据权利要求1所述的方法,其特征在于,所述获取第二当前系统时间点,将所述第二当前系统时间点和所述目标时间戳进行比较,根据比较结果得到对应的时间段,获取所述时间段内的增量数据,根据所述增量数据得到所述预设特征对应的实时数据序列,包括:
当所述第二当前系统时间点在所述目标时间戳之后时,获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据;
根据所述第二增量数据、第三增量数据和第四增量数据得到所述预设特征对应的第二实时数据序列。


4.根据权利要求1所述的方法,其特征在于,从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列,得到特征数据序列,包括:
当所述实时数据序列长度小于预设序列长度时,根据实时数据序列长度和预设序列长度计算目标序列长度;
从所述离线数据序列中依次选择目标序列长度的目标离线数据序列;
根据所述目标离线数据序列和所述实时数据序列得到所述预设序列长度的第一特征数据序列,并将所述第一特征数据序列存储到数据库中。


5....

【专利技术属性】
技术研发人员:侯晓龙任俊松
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1