一种预测用户是否有车的方法和系统技术方案

技术编号:24011683 阅读:62 留言:0更新日期:2020-05-02 01:57
本发明专利技术公开了一种预测用户是否有车的方法和系统。该方法包括:获取带有用户是否有车的有标记的样本数据;基于有标记的样本数据预测待测的用户是否有车;其中,用户的数据包括第一特征集和第二特征集;第一特征集用于表示用户的出行参数;第二特征集用于表示用户的个人信息。采用本发明专利技术能够提高预测用户是否有车的准确度,以便提高不同服务领域的平台对其有车用户的服务,同时提高不同服务领域的平台的总收益。

A method and system for predicting whether a user has a car

【技术实现步骤摘要】
一种预测用户是否有车的方法和系统
本申请属于数据处理领域,特别涉及一种预测用户是否有车的方法和系统。
技术介绍
经统计,网约车平台的乘客通常包括两类:一类是有车的乘客;另一类是无车的乘客。其中,有车的乘客又分为两种:一种是该网约车平台的签约司机;另一种是该网约车平台的普通乘客。经前期发现,有车的用户较普通的用户更加依赖网约车,其对网约车公司的GMV贡献较大,基于此,网约车公司可对其平台中的有车乘客进一步提供精细化服务,进而提高网约车公司的GMV。然而,目前仅能通过既是平台的签约司机又是平台的乘客的方法来确定该网约车平台的一部分乘客为有车乘客,另一部分网约车平台乘客难以确定其是否有车。鉴于此,提供一种如何从网约车平台的乘客中预测其是否有车的方法、装置是有必要的。
技术实现思路
鉴于此,本专利技术提供一种预测用户是否有车的方法、系统、计算机可读介质及装置。本专利技术的方法可以根据第一特征集和第二特征集作为带有用户是否有车的标记的样本数据,通过机器学习训练模型,或通过逻辑判断来预测用户是否有车,以及通过上述两种方法能够准确地预测用户是否有车。本专利技术的第一方面是提供一种预测用户是否有车的方法,包括:获取带有用户是否有车的有标记的样本数据;基于所述有标记的样本数据预测待测的用户是否有车;其中,用户的数据包括第一特征集和第二特征集;所述第一特征集用于表示用户的出行参数;所述第二特征集用于表示用户的个人信息。本专利技术的第二方面是提供一种预测用户是否有车的系统,所述系统包括获取模块、第一预测模块;所述获取模块用于获取带有用户是否有车的有标记的样本数据;所述第一预测模块用于基于所述有标记的样本数据预测待测的用户是否有车;其中,用户的数据包括第一特征集和第二特征集;所述第一特征集用于表示用户的出行参数;所述第二特征集用于表示用户的个人信息。本专利技术的第三方面是提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令,计算机可用于实现预测用户是否有车的方法对应的操作。本专利技术的第四方面是提供一种预测用户是否有车的装置,所述装置包括预测装置和计算机,其中计算机包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述预测用户是否有车的方法对应的操作。在一些实施例中,所述获取带有用户是否有车的有标记的样本数据,包括:基于线上记录获取所述有标记的样本数据;和/或基于线下调研获取所述有标记的样本数据。在一些实施例中,所述第一特征集包括用户每小时出行次数、每天出行次数、出行距离、出行的目的地、出行的类型、和/或出行的消费金额;所述出行的类型包括快车、出租车、和/或专车;所述第二特征集包括用户人口属性和社会属性;其中,所述人口属性包括性别、年龄、住址、婚姻状况、住房情况、和/或家庭人口;所述社会属性包括教育、职业、收入、行业、工作年限、和/或职位。在一些实施例中,所述基于所述有标记的样本数据预测待测的用户是否有车,包括:获取待测的用户数据;根据所述有标记的样本数据,判断所述待测的用户的数据是否有与所述有标记的样本数据相匹配的用户数据,并根据匹配度预测待测的用户是否有车。在一些实施例中,所述基于所述有标记的样本数据预测待测的用户是否有车,包括:根据所述有标记的样本数据,构建模型,根据经构建的所述模型预测待测的用户是否有车。在一些实施例中,所述根据经构建的所述模型预测待测的用户是否有车,包括:获取待测的用户数据;将所述待测的用户数据输入到所述模型,以预测所述待测的用户是否有车。在一些实施例中,所述根据所述有标记的样本数据,构建模型,包括:使用协同训练算法,训练所述有标记的样本数据,以生成模型。在一些实施例中,所述协同训练算法包括如下步骤:将所述有标记的样本数据的第一特征集记为第一视图X1,将所示有标记的样本数据的第二特征集记为第二视图X2;在所述有标记的样本数据的第一视图X1和第二视图X2上分别训练出模型h1和模型h2;获取待测的用户数据记为U,从所述待测的用户数据U上随机选取u个示例放入集合U'中;其中,u<U;用模型h1对U'进行标记,从中选出p个正标记和n个负标记;用模型h2对U'进行标记,从中选出p个正标记和n个负标记;其中,p=n或p≠n;p<u,和n<u;将上述选出的2p+2n个标记加入有标记的样本数据中,获得新一轮的有标记的样本数据,然后随机从待测的用户数据U中选取2p+2n个补充至集合U'中;将模型h1标记的p+n个标记样本加入到第二视图X2中,获得新一轮的第二视图X2,模型h2标记的p+n个标记样本加入到第一视图X1中,获得新一轮的第一视图X1,在新一轮的有标记的样本数据的新一轮的第一视图X1和新一轮的第二视图X2上分别训练出新的模型h1和新的模型h2,基于上述步骤一直循环达到阈值条件,其中,所述阈值条件包括:待测的用户得数据已全部标记;和/或所述两个模型的错误率不再降低;和/或所述两个模型满足训练次数的一定阈值。附图说明本申请将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本申请一些实施例所示的预测用户是否有车的系统的应用场景图;图2是根据本申请一些实施例所示的预测用户是否有车的系统的模块图;图3是根据本申请一些实施例所示的预测用户是否有车的方法的示例性流程图;图4是根据本申请一些实施例所示的协同训练算法的示例性示意图。具体实施方式为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”系用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。本申请的实施例可以应用于预测用户是否有车的业务领域。本申请的不同实施例应用场景包括但不限于旅游业、酒店管理、电商业、城市公交系统、商业运本文档来自技高网...

【技术保护点】
1.一种预测用户是否有车的方法,其特征在于,包括:/n获取带有用户是否有车的有标记的样本数据;/n基于所述有标记的样本数据预测待测的用户是否有车;/n其中,用户的数据包括第一特征集和第二特征集;/n所述第一特征集用于表示用户的出行参数;所述第二特征集用于表示用户的个人信息。/n

【技术特征摘要】
1.一种预测用户是否有车的方法,其特征在于,包括:
获取带有用户是否有车的有标记的样本数据;
基于所述有标记的样本数据预测待测的用户是否有车;
其中,用户的数据包括第一特征集和第二特征集;
所述第一特征集用于表示用户的出行参数;所述第二特征集用于表示用户的个人信息。


2.根据权利要求1所述的方法,其特征在于,获取带有用户是否有车的有标记的样本数据,包括:
基于线上记录获取所述有标记的样本数据;
和/或基于线下调研获取所述有标记的样本数据。


3.根据权利要求1所述的方法,其特征在于,所述第一特征集包括用户每小时出行次数、每天出行次数、出行距离、出行的目的地、出行的类型、和/或出行的消费金额;
所述出行的类型包括快车、出租车、和/或专车;
所述第二特征集包括用户人口属性和社会属性;
其中,所述人口属性包括性别、年龄、住址、婚姻状况、住房情况、和/或家庭人口;
所述社会属性包括教育、职业、收入、行业、工作年限、和/或职位。


4.根据权利要求1所述的方法,其特征在于,基于所述有标记的样本数据预测待测的用户是否有车,包括:
获取待测的用户数据;
根据所述有标记的样本数据,判断所述待测的用户的数据是否有与所述有标记的样本数据相匹配的用户数据,并根据匹配度预测待测平台用户是否有车。


5.根据权利要求1所述的方法,其特征在于,基于所述有标记的样本数据预测待测的用户是否有车,包括:
根据所述有标记的样本数据,构建模型,根据经构建的所述模型预测待测的用户是否有车。


6.根据权利要求5所述的方法,其特征在于,根据经构建的所述模型预测待测的用户是否有车,包括:
获取待测的用户数据;
将所述待测的用户数据输入到所述模型,以预测所述待测的用户是否有车。


7.根据权利要求5所述的方法,其特征在于,根据所述有标记的样本数据,构建模型,包括:使用协同训练算法,训练所述有标记的样本数据,以生成模型。


8.根据权利要求7所述的方法,其特征在于,所述协同训练算法包括如下步骤:将所述有标记的样本数据的第一特征集记为第一视图X1,将所述有标记的样本数据的第二特征集记为第二视图X2;
在所述有标记的样本数据的第一视图X1和第二视图X2上分别训练出模型h1和模型h2;
获取待测的用户数据记为U,...

【专利技术属性】
技术研发人员:丁建栋
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1