基于用户查询日志的客运交通渠道查询模式分类方法技术

技术编号:17705257 阅读:33 留言:0更新日期:2018-04-14 18:07
本发明专利技术涉及交通领域用户查询日志数据处理及分析技术,尤其是一种能基于用户查询日志对客运交通渠道查询模式进行分类的方法。本发明专利技术提出的基于用户查询日志的客运交通渠道查询模式分类方法,可以准确有效地对不同渠道查询模式进行分类,并发现互联网查询渠道中的自动程序(爬虫)带来的虚假查询行为,从而过滤虚假查询行为,为交通领域管理者和市场从业者提供数据支持。

【技术实现步骤摘要】
基于用户查询日志的客运交通渠道查询模式分类方法
本专利技术涉及交通领域用户查询日志数据处理及分析技术,尤其是一种能基于用户查询日志对客运交通渠道查询模式进行分类的方法。
技术介绍
近年来,随着航空、铁路、公路等交通领域的快速发展,交通领域全市场旅客数量不断攀升,而交通客票查询量往往来源于不同的渠道。随着互联网技术的发展,人们对于出行客票的查询越来越集中于各种互联网渠道上。以机票查询为例,目前国内的机票订票渠道主要分为传统代理订票(即MCSS,messagecenterswitchsystem)和互联网订票(即IBE,Internetbookingengine)两种。随着互联网和移动智能终端技术的发展,用户通过IBE渠道进行机票查询和预订所占的比例越来越高。这虽然给我们分析和采集用户数据带来了方便,但是同时却带来了另一个问题,这些互联网查询渠道中充斥了大量自动程序(爬虫)带来的虚假查询行为。因此,基于用户查询日志的客运交通渠道查询模式分类方法的提出是十分必要的。
技术实现思路
本专利技术的实施提供了一种基于用户查询日志的客运交通渠道查询模式分类方法,以实现对用户在线查询数据的不同渠道查询模式进行分类的目的。本专利技术提供了如下方案,一种基于用户查询日志的客运交通渠道查询模式分类方法,该方法包括以下步骤:S1从历史数据库中解析、提取用户查询日志数据:解析历史数据库中的原始用户查询日志数据,从原始用户查询日志数据中提取出对渠道查询模式分类有意义的字段,该原始用户查询数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期等。S2多维度分析S1提取出的用户查询日志数据,构建不同渠道对不同出行线路的查询模式特征,包括:a、查询量指标,统计数据表明,大部分的查询量渠道分布为典型的长尾分布,以机票查询渠道为例,有不到10%的机票查询渠道占据了超过90%的机票查询量。以查询量指标作为一个查询模式特征可以区分出部分不活跃的渠道。b、综合离散度指标,正常的查询行为往往表现为在接近出发日期或有社会事件发生的出发日期查询量高,热门或有事件发生的线路查询量高,而机器人往往将查询量均匀的分散在无关的线路和出发日期上。综合离散度指标计算公式:该指标表示一个渠道的查询行为在出发地&目的地(O&D)、出发日期的空间中分布的均匀程度,该指标越接近1表示渠道查询行为分布越均匀,越接近扒数行为。c、离群度指标,正常人的查询行为往往具有一定的稳定性,所以我们可以从离群点的角度去分析异常的查询行为,具体地可以从三个维度分析渠道的离群性,分别为线路维、历史维、渠道维。以线路维为例,若一个渠道在一天对某条线路的查询量与对其他线路的平均查询量相比有较为明显的异常,那么对这条线路的查询行为是十分可疑的。指标对象:某渠道在某小时对某O&D的查询行为。定义Ci,j,k为第i个渠道、在第j天、对第k条线路的查询次数。线路维离群度计算公式:其中N表示线路总数,该指标表示某渠道在某天对某条线路的查询量与整体样本平均查询量的差异程度。该指标大于0并且绝对值越大,说明样本查询量远高于正常水品;该指标小于0并且绝对值越大,说明样本查询量远低于正常水品。d、行为模式指标,正常旅客查询波形符合人类作息习惯,扒数机器人查询波形则是混乱没有规律的。指标对象:某渠道对某O&D在一天24小时中的查询行为。定义behaviorCurvec,od,b为c渠道对线路od在b小时的查询量,standardCurvec,od,b为c渠道对线路od在b小时的标准查询量。行为模式指标值定义如下:该指标表示了样本过去24小时查询行为模式与标准正常人查询行为模式的相似程度,取值范围[-1,1],该值越接近1,表明查询行为越接近正常人行为规律。e、起飞日期离散度指标,机器人扒数行为的查询量往往在出发日期上均匀分布,正常人只集中在重点出发日期上。指标对象:某渠道在某小时对某O&D的查询行为。定义μ表示为每个出发日期的查询量平均值,Hh表示为第h个出发日期(leaveDate)的查询量总数。起飞日期离散度指标计算公式:该指标表示了某渠道对某条线路查询量在出发日期上的分布均匀程度。该指标越小,说明分布越均匀,说明该渠道对该线路的查询越类似于扒数行为。f、产品离散度指标定义某O&D与某leaveDate组成一个查询产品product(O&D&leaveDate),M为所有查询产品的总数;ν表示为每个查询产品(O&D&leaveDate)上的查询量平均值;Pp表示为第p个查询产品product的查询量总数。令:渠道维计算公式:该指标表示了某渠道的查询量在查询产品(O&D&startDate)上的分布均匀程度。S3根据S2构建出的不同渠道对不同线路的用户查询模式特征,采用k-means聚类方法(具体参见论文:MacqueenJ.SomeMethodsforClassificationandAnalysisofMultiVariateObservations[C]Proc.of,BerkeleySymposiumonMathematicalStatisticsandProbability.1967:281-297.)对在不同渠道上对不同线路的查询行为进行聚类,得到渠道查询模式分类结果。本专利技术具有以下技术效果:本专利技术提出的基于用户查询日志的客运交通渠道查询模式分类方法,可以准确有效地对不同渠道查询模式进行分类,并发现互联网查询渠道中的自动程序(爬虫)带来的虚假查询行为,从而过滤虚假查询行为,为交通领域管理者和市场从业者提供数据支持。附图说明图1为渠道查询量统计结果;图2为正常的查询行为离散分布图;图3为机器人的查询行为离散分布图;图4为符合正常人作息的查询量曲线,横轴为查询时间(小时粒度),纵轴为某小时对该线路的查询量;图5为不符合正常人作息的查询量曲线,横轴为查询时间(小时粒度),纵轴为某小时对该线路的查询量;图6为客运交通渠道查询模式分类结果。具体实施方式本专利技术实施例提出的一种基于用户查询日志的客运交通渠道查询模式分类方法的处理流程包括以下几个步骤:S1解析一定时间段内数据库中的原始用户查询日志数据,上述的一定时间段以十分钟为单位,在实际应用中也可以选择以小时、天等作为时间间隔,将非结构化的原始用户查询日志数据进行去噪、序列化、转换、解压等处理后,再从原始用户查询日志数据中提取出对渠道查询模式分类有意义的字段,该用户查询日志数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期等。该用户查询日志数据包括如下的表1所示的字段;表1编号名称解释1record_date用户查询时刻对应日期2record_hour用户查询时刻对应的小时数值3record_minute用户查询时刻对应的分钟数值4channel用户查询渠道5origin出发地城市6dest目的地城市7departure_date出发日期S2多维度分析S1提取出的用户查询日志数据,构建渠道对不同出行线路的本文档来自技高网...
基于用户查询日志的客运交通渠道查询模式分类方法

【技术保护点】
一种基于用户查询日志的客运交通渠道查询模式分类方法,其特征在于,该方法包括以下步骤:S1从历史数据库中解析、提取用户查询日志数据:解析历史数据库中的原始用户查询日志数据,从原始用户查询日志数据中提取出对渠道查询模式分类有意义的字段,该原始用户查询数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期;S2多维度分析S1提取出的用户查询日志数据,构建不同渠道对不同出行线路的查询模式特征,包括:a、查询量指标,统计数据表明,大部分的查询量渠道分布为典型的长尾分布,以机票查询渠道为例,有不到10%的机票查询渠道占据了超过90%的机票查询量;以查询量指标作为一个查询模式特征可以区分出部分不活跃的渠道;b、综合离散度指标,正常的查询行为往往表现为在接近出发日期或有社会事件发生的出发日期查询量高,热门或有事件发生的线路查询量高,而机器人往往将查询量均匀的分散在无关的线路和出发日期上;综合离散度指标计算公式:

【技术特征摘要】
1.一种基于用户查询日志的客运交通渠道查询模式分类方法,其特征在于,该方法包括以下步骤:S1从历史数据库中解析、提取用户查询日志数据:解析历史数据库中的原始用户查询日志数据,从原始用户查询日志数据中提取出对渠道查询模式分类有意义的字段,该原始用户查询数据中包括用户查询时刻对应的日期、用户查询时刻对应的小时数值、用户查询时刻对应的分钟数值、用户查询渠道、出发地城市、目的地城市、出发日期;S2多维度分析S1提取出的用户查询日志数据,构建不同渠道对不同出行线路的查询模式特征,包括:a、查询量指标,统计数据表明,大部分的查询量渠道分布为典型的长尾分布,以机票查询渠道为例,有不到10%的机票查询渠道占据了超过90%的机票查询量;以查询量指标作为一个查询模式特征可以区分出部分不活跃的渠道;b、综合离散度指标,正常的查询行为往往表现为在接近出发日期或有社会事件发生的出发日期查询量高,热门或有事件发生的线路查询量高,而机器人往往将查询量均匀的分散在无关的线路和出发日期上;综合离散度指标计算公式:该指标表示一个渠道的查询行为在出发地&目的地、出发日期的空间中分布的均匀程度,该指标越接近1表示渠道查询行为分布越均匀,越接近扒数行为;c、离群度指标,正常人的查询行为往往具有一定的稳定性,所以我们可以从离群点的角度去分析异常的查询行为,具体地可以从三个维度分析渠道的离群性,分别为线路维、历史维、渠道维;以线路维为例,若一个渠道在一天对某条线路的查询量与对其他线路的平均查询量相比有较为明显的异常,那么对这条线路的查询行为是十分可疑的;指标对象:某渠道在某小时对某出发地&目的地的查询行为;定义Cij,k为第i个渠道、在第j天、对第k条线路的查询次数;线路维离群度计算公式:其中N表示线路总数,该指标表示某渠道在某天对某条线路的查询量与整体样本平均查询量的差异程度;该指标大于0并且绝对值越大,说明样本查询量远高于正常水品;该指标小于0并且绝对值越大,说明样本查询量远低于正常水品;d、行为模式指标,正常旅客查询波形符合人类作息习惯,扒数机器人查询波形则是混乱没有规律的;指标对象:某渠道对某O&D在一天24小时中的查询行为;定义behaviorCu...

【专利技术属性】
技术研发人员:林友芳万怀宇
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1