事件预测模型的训练方法、事件预测方法及系统技术方案

技术编号:28625346 阅读:13 留言:0更新日期:2021-05-28 16:21
本发明专利技术涉及数据处理技术领域,公开一种事件预测模型的训练方法、事件预测方法及其系统。所述训练方法包括:将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列;对多个序列进行预处理,以获取多个目标分组;分别对多个目标分组中的多个有效序列进行多线程并行滑动切分,以获取具有预设长度的多个目标序列;以及采用多个目标序列对事件预测模型进行训练,以获取训练完成的模型。本发明专利技术通过多线程并行的滑动窗口切分的方式来快速扩充数据样本,从而可对事件预测模型进行充分训练,得到精确度较高的预估结果。

【技术实现步骤摘要】
事件预测模型的训练方法、事件预测方法及系统
本专利技术涉及数据处理
,具体地涉及一种事件预测模型的训练方法与系统、事件预测方法及系统。
技术介绍
目前的事件发生次数预估更多是基于统计性分析,根据往期的数据信息分析短期内的事件发生次数的变化。但因为对象经纪领域数据比较特殊,其交易频率相较于一般性商品低很多,数据稀疏性比较高,且不同定向(即不同类型的对象)之间差异比较大,所以实际上可利用的数据量过少。因此根据上述方式得到的预估结果的准确性较差。
技术实现思路
本专利技术的目的是提供一种事件预测模型的训练方法及系统,其通过多线程并行的滑动窗口切分的方式来快速扩充数据样本,从而可采用丰富的样本数据对事件预测模型进行训练,进而可得到精确度较高的预估结果。为了实现上述目的,本专利技术第一方面提供一种事件预测模型的训练方法,所述训练方法包括:将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列,其中所述序列在各个预设时间段内的数据由所述对象类型与所述事件发生次数的数据对组成;对所述多个序列进行预处理,以获取多个目标分组,其中不同的目标分组之间的有效序列分别对应不同序列长度,且同一目标分组中的多个有效序列的序列长度相等;对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分,以获取具有预设长度的多个目标序列;以及采用所述多个目标序列对所述事件预测模型进行训练,以获取训练完成的所述事件预测模型。优选地,所述事件预测模型包括:seq2seq结构,用于获取所述多个目标序列的第一高维特征数据及分别对应于所述多个预设时间段中的各个预设时间段的多个第二高维特征数据;及全连接层,用于整合所述多个第二高维特征数据中的时间段位于预设比例之前的第二高维特征数据,所述seq2seq结构还用于根据所述第一高维特征数据及所述多个第二高维特征数据,预测所述每个对象类型的对象在与目标长度相对应的多个所述预设时段内的事件发生次数。优选地,所述第一高维特征数据与所述目标序列的较早的预设时间段的事件发生次数的关联程度弱于其与较晚的预设时间段的事件发生次数的关联程度,以及所述多个第二高维特征与所述目标序列中的各个预设时间段的事件发生次数的关联程度相同;并且所述目标长度小于所述预设长度。优选地,所述对所述多个序列进行预处理包括:对所述多个序列进行首次预处理,以通过清除异常数据的方式来获取不同序列长度的多个有效序列;按照所述多个有效序列的序列长度所属的范围,对所述多个有效序列进行分组,以获取多个初始分组;以及对每个初始分组中的每个有效序列进行二次预处理,以获取所述多个目标分组,其中,所述同一目标分组中的多个有效序列的序列长度由该同一目标分组中的多个有效序列的序列长度所属的范围决定。优选地,所述对所述多个序列进行首次预处理包括:截去所述序列中的异常序列片段,其中所述异常序列片段为以第一个预设时段内的事件发生次数的异常值为起点且以连续出现的事件发生次数的异常值中的最后一个预设时间段内的事件发生次数的异常值为终点的序列片段,其中所述异常值为缺失值或0;以及采用拉格朗日插值法,对截去所述异常序列片段之后的所述序列中的事件发生次数的异常值进行补全。优选地,所述对所述多个有效序列进行分组包括:按照所述多个有效序列的序列长度所属的范围,并通过二分法对所述多个有效序列进行分组。优选地,所述同一目标分组中的多个有效序列的序列长度由该同一目标分组中的多个有效序列的序列长度所属的范围的均值决定。优选地,在所述对象为房产的情况下,房产类型包括由所述房产所处的小区的标识及所述小区周围的多个配套设施特征中的至少一者组成的特征组合。优选地,在所述对象为房产的情况下,房产类型包括所述房产所处的小区的标识,相应地,在执行所述对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分的步骤之前,所述训练方法还包括:将所述小区周围的多个配套设施特征加载到所述房产类型。优选地,所述预设长度小于或等于所述不同序列长度中的最小值。通过上述技术方案,本专利技术创造性地将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列;然后对所述多个序列进行预处理,以获取多个目标分组,其中不同的目标分组之间的有效序列分别对应不同序列长度,且同一目标分组中的多个有效序列的序列长度相等;接着对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分,以获取具有预设长度的多个目标序列,最后采用所述多个目标序列对所述事件预测模型进行训练,以获取训练完成的所述事件预测模型,由此,可通过多线程并行的滑动窗口切分的方式来快速扩充数据样本,从而可采用丰富的样本数据对事件预测模型进行训练,进而可得到精确度较高的预估结果。本专利技术第二方面提供一种事件预测方法,所述事件预测方法包括:将属于特定对象类型的对象在多个预设时段内的事件发生次数构建成按照时间先后排列的与所述特定对象类型相对应的序列,其中所述序列在各个预设时间段内的数据由所述特定对象类型与所述事件发生次数的数据对组成;以及将所构建的与所述特定对象类型相对应的序列输入事件预测模型中,以预测与目标长度相对应的多个预设时段内的事件发生次数,其中所述事件预测模型由所述的事件预测模型的训练方法训练得到。通过上述技术方案,本专利技术创造性地由上述的事件预测模型的训练方法训练得到事件预测模型对与特定对象类型相对应的序列进行预测,以预估与目标长度相对应的多个预设时段内的事件发生次数,由此可精确地预估得到事件发生次数结果。本专利技术第三方面提供一种事件预测模型的训练系统,所述训练系统包括:构建装置,用于将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列,其中所述序列在各个预设时间段内的数据由所述对象类型与所述事件发生次数的数据对组成;预处理装置,用于对所述多个序列进行预处理,以获取多个目标分组,其中不同的目标分组之间的有效序列分别对应不同序列长度,且同一目标分组中的多个有效序列的序列长度相等;切分装置,用于对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分,以获取具有预设长度的多个目标序列;以及训练装置,用于采用所述多个目标序列对所述事件预测模型进行训练,以获取训练完成的所述事件预测模型。优选地,所述事件预测模型包括:seq2seq结构,用于获取所述多个目标序列的第一高维特征数据及分别对应于所述多个预设时间段中的各个预设时间段的多个第二高维特征数据;及全连接层,用于整合所述多个第二高维特征数据中的时间段位于预设比例之前的第二高维特征数据,所述seq2seq结构还用于根据所述第一高维特征数据及所述多个第二高维特征数据,预测所述每个对象类型的对象在与目标长度相对应的多个所述预设时段内的事件发生次数。优选地,所述第一高维特征数据与所述目标序列的较早的预设时间段的事件发生次数的关联程度弱于其与较晚的预设时间段的事件发生次数的关联程度本文档来自技高网...

【技术保护点】
1.一种事件预测模型训练方法,其特征在于,所述训练方法包括:/n将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列,其中所述序列在各个预设时间段内的数据由所述对象类型与所述事件发生次数的数据对组成;/n对所述多个序列进行预处理,以获取多个目标分组,其中不同的目标分组之间的有效序列分别对应不同序列长度,且同一目标分组中的多个有效序列的序列长度相等;/n对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分,以获取具有预设长度的多个目标序列;以及/n采用所述多个目标序列对所述事件预测模型进行训练,以获取训练完成的所述事件预测模型。/n

【技术特征摘要】
1.一种事件预测模型训练方法,其特征在于,所述训练方法包括:
将属于多个对象类型中的每个对象类型的对象在多个预设时段内的事件发生次数构建成按时间先后排列的序列,以获取多个序列,其中所述序列在各个预设时间段内的数据由所述对象类型与所述事件发生次数的数据对组成;
对所述多个序列进行预处理,以获取多个目标分组,其中不同的目标分组之间的有效序列分别对应不同序列长度,且同一目标分组中的多个有效序列的序列长度相等;
对所述多个目标分组中的多个有效序列分别进行多线程并行滑动切分,以获取具有预设长度的多个目标序列;以及
采用所述多个目标序列对所述事件预测模型进行训练,以获取训练完成的所述事件预测模型。


2.根据权利要求1所述的事件预测模型训练方法,其特征在于,所述采用所述多个目标序列对所述事件预测模型进行训练包括:
通过所述事件预测模型中的seq2seq结构获取所述多个目标序列的第一高维特征数据及分别对应于所述多个预设时间段中的各个预设时间段的多个第二高维特征数据;
通过所述事件预测模型中的全连接层整合所述多个第二高维特征数据中的时间段位于预设比例之前的第二高维特征数据;以及
根据所述第一高维特征数据及所述多个第二高维特征数据,预测所述每个对象类型的对象在与目标长度相对应的多个所述预设时段内的事件发生次数。


3.根据权利要求2所述的事件预测模型训练方法,其特征在于,所述第一高维特征数据与所述目标序列的较早的预设时间段的事件发生次数的关联程度弱于其与较晚的预设时间段的事件发生次数的关联程度,以及所述多个第二高维特征与所述目标序列中的各个预设时间段的事件发生次数的关联程度相同;并且所述目标长度小于所述预设长度。


4.根据权利要求1所述的事件预测模型的训练方法,其特征在于,所述对所述多个序列进行预处理包括:
对所述多个序列进行首次预处理,以通过清除异常数据的方式来获取不同序列长度的多个有效序列;
按照所述多个有效序列的序列长度所属的范围,对所述多个有效序列进行分组,以获取多个初始分组;以及
对每个初始分组中的每个有效序列进行二次预处理,以获取所述多个目标分组,其中,所述同一目标分组中的多个有效序列的序列长度由该同一目标分组中的多个有效序列的序列长度所属的范围决定。


5.根据权利要求4所述的事件预测模型的训练方法,其特征在于,所述对所述多个序列进行首次预处理包括:
截去所述序列中的异常序列片段,其中所述异常序列片段为以第一个预设时段内的事件发生次数的异常值为起点且以连续出现的事件发生次数的异常值中的最后一个预设时间段内的事件发生次数的异常值为终点的序列片段,其中所述异常值为缺失...

【专利技术属性】
技术研发人员:王勇杜开君周家生
申请(专利权)人:北京房江湖科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1