基于人工智能的焦点用户挖掘方法和装置制造方法及图纸

技术编号:25042405 阅读:16 留言:0更新日期:2020-07-29 05:33
本发明专利技术提供了一种基于人工智能的焦点用户挖掘方法和装置;方法包括:将样本焦点用户的特征按照所涉及的类型进行编码处理,以获得样本焦点用户的特征编码序列;针对每个样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;对频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征焦点用户集合的共性的强相关特征编码;基于焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于分类模型获得表征待识别用户是否是焦点用户的分类结果。通过本发明专利技术,能够高效且准确的挖掘焦点用户。

【技术实现步骤摘要】
基于人工智能的焦点用户挖掘方法和装置
本专利技术涉及人工智能领域和大数据
,尤其涉及一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展,并广泛应用于各种行业。以焦点用户挖掘的应用场景为例,焦点用户是指拥有更多且更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。随着大数据的发展,焦点用户的识别和挖掘对行业领域内相关应用具有非常重要的意义,通过挖掘行业或产品高潜和传播力较强的焦点用户,能够指导产品和相关业务的运营和投放,且更有针对性的对目标用户群体进行推送,达到事半功倍的效果。因此,如何高效且准确地挖掘焦点用户群体,对行业发展、产品运营、业务引流等都起着至关重要的作用。然而,相关技术对于如何高效且准确的挖掘焦点用户尚无有效的方案。
技术实现思路
本专利技术实施例提供一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质,能够高效且准确的挖掘焦点用户。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的焦点用户挖掘方法,所述方法包括:针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。本专利技术实施例提供一种基于人工智能的焦点用户挖掘装置,包括:编码模块,用于针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;选取模块,用于针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;衍生模块,用于对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;识别模块,用于基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。上述方案中,所述编码模块,还用于在所述样本焦点用户的用户数据中,提取基础属性类型和行为属性类型的数据,并基于所提取的数据构建多个用户特征;根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值;将对应每个所述用户特征的特征值所查找到的编码值进行组合,以获得所述样本焦点用户的特征编码序列。上述方案中,所述编码模块,还用于对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作:确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征中缺失的特征值进行特征值填充;构造所述过滤后的特征、以及特征值填充后的特征值,以获得用于进行编码处理的用户特征。上述方案中,所述选取模块,还用于在不同样本焦点用户的多个特征编码序列中,多次选取特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。上述方案中,所述选取模块,还用于在所述序列集合中,选取单位长度为一的一项特征编码序列前缀,并确定对应于所述一项特征编码序列前缀的投影数据集;当对应于所述一项特征编码序列前缀的投影数据集不为空时,将出现频率超过所述频率阈值的一项特征编码序列前缀确定为频繁一项特征编码序列;在所述频繁一项特征编码序列的基础上,依次递增选取的特征编码序列前缀的单位长度,以获得n项特征编码序列前缀;确定对应于所述n项特征编码序列前缀的投影数据集;当对应于所述n项特征编码序列前缀的投影数据集为空、且所述n项特征编码序列前缀的出现频率超过所述频率阈值时,将所述n项特征编码序列前缀确定为频繁特征编码序列;其中,所述n是取值逐渐递增的自然数,取值范围满足2≤n≤K,K是所述序列集合中长度最大的特征编码子序列中所包含的特征编码的数量。上述方案中,所述衍生模块,还用于从所述频繁特征编码序列中提取多个特征编码;将所述提取的多个特征编码进行以下至少之一的处理:将所述多个特征编码中的单一变量进行基础转换;将所述多个特征编码中的多变量进行组合;在所述多个特征编码中添加时间维度以进行衍生;根据决策树的路径,将所述多个特征编码进行组合。上述方案中,所述分类模型包括多个基分类模型;所述识别模块,还用于将所述焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;基于构造的多个训练样本,训练所述多个基分类模型;将训练完成的多个基分类模型通过集合策略进行整合,以获得所述分类模型。上述方案中,所述分类模型包括多个基分类模型;所述识别模块,还用于获取所述待识别用户的用户数据;从所述待识别用户的用户数据中提取所述待识别用户的特征;通过所述多个基分类模型,分别基于所述待识别用户的特征进行分类处理,以获得每个基分类模型的分类结果;将所述多个分类结果通过集合策略进行整合,以获得表征所述待识别用户是否是焦点用户的分类结果。上述方案中,所述基于人工智能的焦点用户挖掘装置还包括:筛选模块,用于获取多个样本用户的用户数据;根据数据转化维度,将所述多个样本用户的用户数据进行标准化处理,以获得每个样本用户的焦点评分,其中,所述焦点评分表征所述样本用户是样本焦点用户的概率;根据所述多个样本用户的焦点评分,选取部分样本用户以作为样本焦点用户。上述方案中,所述筛选模块,还用于在所述多个样本用户中,选取焦点评分高于焦点评分阈值的部分样本用户以作为样本焦点用户;或者,根据所述多个样本用户的焦点评分,将所述多个样本用户进行降序排序,并选取排序在前的、且数量为样本数量阈值的部分样本用户以作为样本焦点用户。上述方案中,所述基于人工智能的焦点用户挖掘装置还包括:相关度处理模块,用于确定多个非强相关特征编码,其中,所述非强相关特征编码是出现频率不超过所述频率阈值的特征编码子序列中所包含的特征编码;确定所述多个非强相关特征编码的方差,并将方差低本文档来自技高网...

【技术保护点】
1.一种基于人工智能的焦点用户挖掘方法,其特征在于,所述方法包括:/n针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;/n针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;/n对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;/n基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。/n

【技术特征摘要】
1.一种基于人工智能的焦点用户挖掘方法,其特征在于,所述方法包括:
针对焦点用户集合中的每个样本焦点用户,将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列;
针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列;
对所述频繁特征编码序列中的特征编码进行衍生处理,以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码;
基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述将所述样本焦点用户的特征按照所涉及的类型进行编码处理,以获得所述样本焦点用户的特征编码序列,包括:
在所述样本焦点用户的用户数据中,提取基础属性类型和行为属性类型的数据,并基于所提取的数据构建多个用户特征;
根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值;
将对应每个所述用户特征的特征值所查找到的编码值进行组合,以获得所述样本焦点用户的特征编码序列。


3.根据权利要求2所述的方法,其特征在于,在所述根据每个所述用户特征的特征值,从相应类型的编码表查找所述特征值的编码值之前,所述方法还包括:
对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作:
确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量;
将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤,以获得过滤后的特征;
舍弃对应于所述过滤后的特征的异常特征值,并针对所述过滤后的特征中缺失的特征值进行特征值填充;
构造所述过滤后的特征、以及特征值填充后的特征值,以获得用于进行编码处理的用户特征。


4.根据权利要求1所述的方法,其特征在于,所述针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列,确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列,包括:
在不同样本焦点用户的多个特征编码序列中,多次选取特征编码,并将每次选取的多个特征编码进行组合,以获得多个不同的特征编码子序列;
其中,每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码;
在所述多个不同的特征编码子序列形成的序列集合中,选取出现频率超过所述频率阈值的特征编码子序列,以作为频繁特征编码序列。


5.根据权利要求1所述的方法,其特征在于,所述对所述频繁特征编码序列中的特征编码进行衍生处理,包括:
从所述频繁特征编码序列中提取多个特征编码;
将提取的多个特征编码进行以下至少之一的处理:
将所述多个特征编码中的单一变量进行基础转换;
将所述多个特征编码中的多变量进行组合;
在所述多个特征编码中添加时间维度以进行衍生;
根据决策树的路径,将所述多个特征编码进行组合。


6.根据权利要求1所述的方法,其特征在于,
所述分类模型包括多个基分类模型;
所述基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型,包括:
将所述焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本;
基于构造的多个训练样本,训练所述多个基分类模型;
将训练完成的多个基分类模型通过集合策...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1