对事件特征进行编码的方法和装置制造方法及图纸

技术编号:29584729 阅读:29 留言:0更新日期:2021-08-06 19:43
本说明书实施例提供一种对事件特征进行编码的方法和装置。根据该方法,对于事件中多种不同类型、不同数据结构的特征项,采用不同的方式进行编码。特别是对于类别型特征项,当确定当前目标事件针对该特征项的特征值属于针对该特征项确定的低频取值集合时,根据用于指示该低频取值集合的预定值,对该特征项编码。如此,可以将该特征项下的不同低频取值合并为一个统一的预定值,从而缩减编码维度,优化编码效果。

【技术实现步骤摘要】
对事件特征进行编码的方法和装置
本说明书一个或多个实施例涉及人工智能和机器学习领域,尤其涉及对事件特征进行编码的方法和装置。
技术介绍
在互联网环境中,事件可以作为对用户的活动或行为的细粒度的记录和表征,构成互联网中的基本组成元素之一。例如,用户浏览页面时对一内容区块进行了点击,可以视为用户发生了对页面内容区块的点击事件,电商中的购买行为可以视为用户对商品的购买事件,社交工具中用户之间的互动可以认为用户账户间的交互事件,等等。一系列的事件中蕴含了用户的细粒度习惯偏好等特点,以及交互对象的特点,是机器学习模型的重要特征来源。因此,在许多场景下,希望通过机器学习模型对事件进行分析,基于事件分析得出的用户特点或事件特点进行业务相关预测,例如,个性推荐,风险控制,等等。通过机器学习进行事件分析依赖于对事件的编码和表征。由此,希望能有改进的方案,更为有效地对事件特征进行编码表征,从而便于下游的模型学习和分析。
技术实现思路
本说明书一个或多个实施例描述了对事件特征进行编码的方法和装置,可以更加有效地对事件特征进行编码和表征。<本文档来自技高网...

【技术保护点】
1.一种对事件特征进行编码的方法,包括:/n获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;/n确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;/n若属于,则根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。/n

【技术特征摘要】
1.一种对事件特征进行编码的方法,包括:
获取待分析的目标事件,所述目标事件包括类别型的第一特征项,所述目标事件针对第一特征项的取值为第一特征值;
确定所述第一特征值是否属于针对所述第一特征项预先设定的低频取值集合;
若属于,则根据用于指示所述低频取值集合的预定值,采用第一编码方式对所述目标事件的第一特征项进行编码。


2.根据权利要求1所述的方法,其中,所述目标事件为用户操作事件,所述第一特征项为以下之一:城市,设备型号,支付渠道,职业,信用等级,数值区间。


3.根据权利要求1所述的方法,其中所述第一编码方式包括以下之一:独热编码,二元编码,可训练的嵌入向量编码。


4.根据权利要求1所述的方法,还包括:
获取包含多个事件的样本集合;
统计所述样本集合中各个事件针对第一特征项的特征值分布;
根据所述特征值分布,确定所述低频取值集合。


5.根据权利要求3所述的方法,其中,所述特征值分布包括,各个备选取值的出现频次;确定所述低频取值集合,具体包括:
将出现频次低于一定阈值的备选取值,归入所述低频取值集合。


6.根据权利要求1所述的方法,其中,所述目标事件包括时间特征信息,所述时间特征信息包括第一字段和第二字段,所述第一字段具有离散字段值,所述第二字段具有连续数值型字段值;所述方法还包括:
采用所述第一编码方式对第一字段进行编码;
根据预先统计的第二字段的最大取值和最小取值,将第二字段的字段值映射到预定区间,基于所述预定区间中的映射值进行编码。


7.根据权利要求5所述的方法,其中,所述第一字段包括以下中的一项或多项:月份、季度、星期、小时;所述第二字段包括,相邻事件间的时间间隔,所述目标事件距离最新事件之间的时间间隔。


8.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:李辉傅幸王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1