基于人工智能的焦点用户挖掘方法和装置制造方法及图纸

技术编号：25042405 阅读：16 留言：0更新日期：2020-07-29 05:33

本发明专利技术提供了一种基于人工智能的焦点用户挖掘方法和装置；方法包括：将样本焦点用户的特征按照所涉及的类型进行编码处理，以获得样本焦点用户的特征编码序列；针对每个样本焦点用户的特征编码序列所包括的多个特征编码子序列，确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列；对频繁特征编码序列中的特征编码进行衍生处理，以将获得的特征编码作为表征焦点用户集合的共性的强相关特征编码；基于焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型，并基于分类模型获得表征待识别用户是否是焦点用户的分类结果。通过本发明专利技术，能够高效且准确的挖掘焦点用户。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的焦点用户挖掘方法和装置
本专利技术涉及人工智能领域和大数据
，尤其涉及一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展，并广泛应用于各种行业。以焦点用户挖掘的应用场景为例，焦点用户是指拥有更多且更准确的产品信息，且为相关群体所接受或信任，并对该群体的购买行为有较大影响力的人。随着大数据的发展，焦点用户的识别和挖掘对行业领域内相关应用具有非常重要的意义，通过挖掘行业或产品高潜和传播力较强的焦点用户，能够指导产品和相关业务的运营和投放，且更有针对性的对目标用户群体进行推送，达到事半功倍的效果。因此，如何高效且准确地挖掘焦点用户群体，对行业发展、产品运营、业务引流等都起着至关重要的作用。然而，相关技术对于如何高效且准确的挖掘焦点用户尚无有效的方案。
技术实现思路
本专利技术实施例提供一种基于人工智能的焦点用户挖掘方法、装置、电子设备及计算机可读存储介质，能够高效且准确的挖掘焦点用户。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供一种基于人工智能的焦点用户挖掘方法，所述方法包括：针对焦点用户集合中的每个样本焦点用户，将所述样本焦点用户的特征按照所涉及的类型进行编码处理，以获得所述样本焦点用户的特征编码序列；针对每个所述样本焦点用户的特征编...

【技术保护点】
1.一种基于人工智能的焦点用户挖掘方法，其特征在于，所述方法包括：/n针对焦点用户集合中的每个样本焦点用户，将所述样本焦点用户的特征按照所涉及的类型进行编码处理，以获得所述样本焦点用户的特征编码序列；/n针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列，确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列；/n对所述频繁特征编码序列中的特征编码进行衍生处理，以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码；/n基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型，并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。/n

【技术特征摘要】
1.一种基于人工智能的焦点用户挖掘方法，其特征在于，所述方法包括：
针对焦点用户集合中的每个样本焦点用户，将所述样本焦点用户的特征按照所涉及的类型进行编码处理，以获得所述样本焦点用户的特征编码序列；
针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列，确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列；
对所述频繁特征编码序列中的特征编码进行衍生处理，以将获得的特征编码作为表征所述焦点用户集合的共性的强相关特征编码；
基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型，并基于所述分类模型获得表征待识别用户是否是焦点用户的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述样本焦点用户的特征按照所涉及的类型进行编码处理，以获得所述样本焦点用户的特征编码序列，包括：
在所述样本焦点用户的用户数据中，提取基础属性类型和行为属性类型的数据，并基于所提取的数据构建多个用户特征；
根据每个所述用户特征的特征值，从相应类型的编码表查找所述特征值的编码值；
将对应每个所述用户特征的特征值所查找到的编码值进行组合，以获得所述样本焦点用户的特征编码序列。

3.根据权利要求2所述的方法，其特征在于，在所述根据每个所述用户特征的特征值，从相应类型的编码表查找所述特征值的编码值之前，所述方法还包括：
对所述多个用户特征中的每个用户特征、以及相应的特征值进行以下预处理操作：
确定所述每个用户特征的特征值的缺失数量、以及针对同一用户特征的相同特征值的数量；
将特征值的缺失数量超过缺失值过滤阈值、以及相同特征值的数量超过相同数量阈值的用户特征进行过滤，以获得过滤后的特征；
舍弃对应于所述过滤后的特征的异常特征值，并针对所述过滤后的特征中缺失的特征值进行特征值填充；
构造所述过滤后的特征、以及特征值填充后的特征值，以获得用于进行编码处理的用户特征。

4.根据权利要求1所述的方法，其特征在于，所述针对每个所述样本焦点用户的特征编码序列所包括的多个特征编码子序列，确定出现频率超过频率阈值的特征编码子序列以作为频繁特征编码序列，包括：
在不同样本焦点用户的多个特征编码序列中，多次选取特征编码，并将每次选取的多个特征编码进行组合，以获得多个不同的特征编码子序列；
其中，每次选取的多个特征编码中均包含归属于不同样本焦点用户的特征编码序列中的特征编码；
在所述多个不同的特征编码子序列形成的序列集合中，选取出现频率超过所述频率阈值的特征编码子序列，以作为频繁特征编码序列。

5.根据权利要求1所述的方法，其特征在于，所述对所述频繁特征编码序列中的特征编码进行衍生处理，包括：
从所述频繁特征编码序列中提取多个特征编码；
将提取的多个特征编码进行以下至少之一的处理：
将所述多个特征编码中的单一变量进行基础转换；
将所述多个特征编码中的多变量进行组合；
在所述多个特征编码中添加时间维度以进行衍生；
根据决策树的路径，将所述多个特征编码进行组合。

6.根据权利要求1所述的方法，其特征在于，
所述分类模型包括多个基分类模型；
所述基于所述焦点用户集合中每个样本焦点用户的强相关特征编码训练分类模型，包括：
将所述焦点用户集合中每个样本焦点用户的强相关特征编码和焦点用户标签构成训练样本；
基于构造的多个训练样本，训练所述多个基分类模型；
将训练完成的多个基分类模型通过集合策...

【专利技术属性】
技术研发人员：刘志煌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人