一种基于机器学习的民航旅客标签分析方法及处理终端技术

技术编号:20425511 阅读:22 留言:0更新日期:2019-02-23 08:37
本发明专利技术涉及一种基于机器学习的民航旅客标签分析方法,包括如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征;步骤3:GRU训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为;步骤5:标签建立,经过步骤3训练和步骤4优化后,第一GRU、第二GRU和第三GRU分别连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签。本发明专利技术能够精准识别出用户是否为民航旅客,且计算效率高。

【技术实现步骤摘要】
一种基于机器学习的民航旅客标签分析方法及处理终端
本专利技术涉及民航旅客标签处理
,具体是一种基于机器学习的民航旅客标签分析方法及处理终端。
技术介绍
随着网络技术,特别是移动互联网的发展,互联网信息呈爆炸式增长,而信息筛选手段、信息处理速度却没能相应匹配,这也造成航空企业无法对民航旅客进行有效识别,不合时宜不合偏好的推送,往往对用户带来骚扰,进而引发用户投诉。因此,如何通过各类互联网访问信息,精准构建民航旅客标签,识别出真正的民航旅客用户一直都是各大航司重点研究方向。现有民航旅客标签构建方式,主要基于人肉标签+浅层学习方法,大范围的人类知识介入以及对数量大、维度高以及稀疏性的互联网数据特征之间的潜在联系没能进一步挖掘,造成标签构建效率低下且准确率无法支持后续的精准营销,导致推送的消息引起用户的反感,进而造成投诉。这就需要有一种能够准确识别出是否为民航旅客的方法。
技术实现思路
针对现有技术的不足,本专利技术的目的之一提供一种基于机器学习的民航旅客标签分析方法,其能够解决准确识别出是否为民航旅客的问题;本专利技术的目的之二提供一种处理终端,其能够解决准确识别出是否为民航旅客的问题。实现本专利技术的目的之一的技术方案为:一种基于机器学习的民航旅客标签分析方法,包括如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:推荐后根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)天、g(zi)月和g(zi)年,g(zi)天表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)月表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)年表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)天、g(zi)月和g(zi)年有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。进一步地,所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。进一步地,所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分成显示标识符、准标识符、敏感属性和非敏感属性,显示标识符包括名称、电话、ID、地址、MAC地址、IMEI序列号和IDFA,准标识符包括年龄、工作类别、教育情况、婚姻状况、职业、民族、性别和籍贯等信息,敏感信息包括人际关系,非敏感信息包括教育、资本收益、资本损失和每周工作时间;对显示标识符进行删除或者失真处理,对准标识符脱敏处理,对敏感属性保留,而对非敏感数据则直接输出。进一步地,所述第一GRU的输入的向量化样本特征为按天统计的点击数,第二GRU的输入的向量化样本特征为按月统计的购买数,第三GRU的输入的向量化样本特征为按年统计的购票数。进一步地,所述训练条件用交叉熵损失函数来约束,交叉熵损失函数的计算式为公式①:其中,y表示实际标注值,o表示预测输出值,直至L(y,o)<0.005,则停止训练。进一步地,所述GRU包括结构相同的第一GRU、第二GRU和第三GRU,第一GRU、第二GRU和第三GRU分别连接Softmax层。进一步地,所述Softmax层的计算式为公式②:其中,zi表示Softmax层的第i个输入值,g(zi)为对应的输出值,k表示Softmax层输出向量的维度。实现本专利技术的目的之二的技术方案为:一种处理终端,其包括,存储器,用于存储程序指令;处理器,用于运行所述程序指令,以执行如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:推荐后根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)天、g(zi)月和g(zi)年,g(zi)天表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)月表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)年表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)天、g(zi)月和g(zi)年有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅客”的标签,对应的n_samples=0。进一步地,所述预处理包括数据脱敏、去重、缺失值处理、ID-Mapping和统计分析。进一步地,所述数据脱敏采用k-匿名隐私保护方法,在k-匿名隐私保护方法中,数据表中的属性被分本文档来自技高网...

【技术保护点】
1.一种基于机器学习的民航旅客标签分析方法,其特征在于:包括如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID‑Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:

【技术特征摘要】
1.一种基于机器学习的民航旅客标签分析方法,其特征在于:包括如下步骤:步骤1:获取原始数据;步骤2:对原始数据进行预处理,从而获得向量化样本特征,包括同一用户的按天统计的向量化样本特征、按月统计的向量化样本特征和按年统计的向量化样本特征;步骤3:GRU训练,在对GRU训练前,获得购票行为的历史数据,根据历史数据的购票行为,赋值给步骤2中得到的向量化样本特征中的用户标签数据n_samples,如果历史数据中有购票行为,则n_samples=1,否则n_samples=0,将赋值后的向量化样本特征输入至GRU的前向计算公式对GRU进行训练,直至满足训练条件后,停止对GRU进行训练,得到GRU训练后的更新门的权重矩阵Wz和重置门的权重矩阵Wr;步骤4:GRU优化,经过训练后的GRU对用户进行推荐消息,根据ID-Mapping技术对用户进行跟踪反馈,定期检索用户的购票行为数据,获取用户是否曾发生过购票行为,再根据用户接收推荐消息后的购买行为来调整n_samples的值,得到推荐后的n_samples值:根据推荐后的n_samples的值,重新赋值给向量化样本特征,再次执行步骤3,对GRU进行优化,得到经过优化后的最终GRU;步骤5:标签建立,将经过步骤3训练和步骤4优化后的最终GRU连接Softmax层,根据Softmax层的计算公式计算后的输出值来判断是否对用户建立“民航旅客”的标签,输出值对应三个结果g(zi)天、g(zi)月和g(zi)年,g(zi)天表示对应输入为按天统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)月表示对应输入为按月统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,g(zi)年表示对应输入为按年统计的向量化样本特征经过Softmax层的计算公式计算后的输出值,当计算出的g(zi)天、g(zi)月和g(zi)年有两个或两个以上的最大值出现在第一行,则判断输入数据对应的用户为“民航旅客”,建立“民航旅客”的标签,对应的n_samples=1,否则建立“非民航旅...

【专利技术属性】
技术研发人员:陈明桩曾帆吴双燕高陈程
申请(专利权)人:海南民航凯亚有限公司
类型:发明
国别省市:海南,46

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1