System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 直播用户挖掘方法、系统、电子设备及介质技术方案_技高网

直播用户挖掘方法、系统、电子设备及介质技术方案

技术编号:40663644 阅读:2 留言:0更新日期:2024-03-18 18:57
本公开提供一种直播用户挖掘方法、系统、电子设备及存储介质,以解决直播用户挖掘无法全面地揭示直播用户的特征和行为模式,不够精准且效率较低的技术问题,所述方法包括:收集运营商网络数据,并对数据进行清洗;基于运营商网络数据,为已知的直播用户群体构建特征标签,并对特征标签中的特征字段进行归一化处理;将相关性较低或相似的特征字段进行降维处理,并将降维后的新特征字段和原特征字段重组为特征字段数据集;将标识有直播用户标签的特征字段数据集作为训练样本输入训练网络模型中训练,以建立直播用户群体识别模型;利用识别模型对待识别用户进行预测,识别直播用户群体。本公开可以能够高效且精准的识别出直播用户群体。

【技术实现步骤摘要】

本公开涉及通信,具体涉及一种直播用户挖掘方法,一种直播用户挖掘系统,一种电子设备以及一种计算机可读存储介质。


技术介绍

1、随着互联网技术的不断发展,直播行业迅速崛起,成为人们购物、娱乐、学习和营销的重要平台,直播用户在网民中的占比在逐渐增加,发展为日常生活中一类活跃的用户群体。然而在海量数据中挖掘直播用户群体对于运营商仍是一大挑战。

2、现有的直播用户挖掘方法主要依赖于传统的数据统计和分析技术,无法全面地揭示直播用户的特征和行为模式,而且任务中容易出现特征维度灾难问题,现有的方法主要是通过特征选择方法循环删除无关及低相关性特征,而通常特征工程在分类模型中占有重要地位,一个特征选择方法或一个特征字段,对模型的准确率可能产生较大影响,使用户识别不够精准且挖掘效率较低。


技术实现思路

1、为了至少解决现有技术中存在的直播用户挖掘无法全面地揭示直播用户的特征和行为模式,识别不够精准且效率较低的技术问题,本公开提供一种直播用户挖掘方法、直播用户挖掘系统、电子设备以及计算机可读存储介质,基于运营商大数据进行直播用户群体识别,通过各个特征标签中的特征字段全面地揭示直播用户的特征和行为模式,并且对部分相关性较低或相似度较高的特征进行降维处理,既能保留更多特征信息又能够有效降低特征维度,从而使模型泛化能力增强,能够更精准的识别直播用户群体。

2、第一方面,本公开提供一种直播用户挖掘方法,所述方法包括:

3、收集运营商网络数据,并对数据进行清洗;

4、基于运营商网络数据,为已知的直播用户群体构建特征标签,并对特征标签中的特征字段进行归一化处理;

5、对归一化处理后的特征字段,将相关性较低的特征字段或相似的特征字段进行降维处理,并将降维后的新特征字段和未降维处理的原特征字段重组为特征字段数据集;

6、将标识有直播用户标签的特征字段数据集作为训练样本输入训练网络模型中训练,以建立直播用户群体识别模型;

7、利用直播用户群体识别模型对待识别用户进行预测,识别直播用户群体。

8、进一步的,所述方法还包括:

9、在特征字段归一化处理后,对各个特征字段引入时间衰减因子进行更新。

10、进一步的,

11、所述运营商网络数据包括移网信令面数据、用户面数据及基站工参数据;

12、所述特征标签包括网络流量特征、app行为特征和位置行为特征;

13、所述方法还包括:

14、基于一月内的日均网络流量数据分别计算网络流量中的各个特征字段;

15、基于各种直播类型的使用状况分别计算app行为特征字段中各类型直播的各个特征字段;

16、基于一月内的日均eci(e-utran cell identifier,演进的通用移动通信系统陆地无线接入网小区唯一标识)数据分别计算位置行为中的各个特征字段。

17、进一步的,所述对各个特征字段引入时间衰减因子进行更新包括:

18、通过以下时间衰减公式(1)对各个特征字段进行更新:

19、yi=yi*1.0/(1.0+decay*i)  (1)

20、其中,decay为一个介于[0.0,1.0]的小数,i为距现在的天数,yi为据现在的天数为i的用户数据值,yi为经过时间衰减因子更新后的据现在的天数为i的用户数据值。

21、进一步的,所述将相关性较低的特征字段或相似的特征字段进行降维处理包括:

22、引入mlp(multilayer perceptron,多层感知机)对相关性较低的特征字段或相似的特征字段进行降维处理;或者,

23、通过随机森林算法,对相关性较低的特征字段或相似的特征字段进行重组,降低特征维度。

24、进一步的,所述引入mlp对相关性较低的特征字段或相似的特征字段进行降维处理包括:

25、通过先验知识,确定相关性较低的m个特征字段数据,或相似的m个特征字段数据;

26、假设确定的数据集有n个样本,则输入样本的维度为(n,m),将样本输入mlp模型进行训练;

27、利用scikit-learn工具包中的函数predict_proba,输出模型预测n个样本为正类的概率(p1,p2,...,pn),输出样本p,维度为(n,1)

28、将输出样本p作为的一个新特征字段。

29、第二方面,本公开提供一种直播用户挖掘系统,所述系统包括:

30、收集模块,其设置为收集运营商网络数据,并对数据进行清洗;

31、构建模块,其设置为基于运营商网络数据,为已知的直播用户群体构建特征标签,并对特征标签中的特征字段进行归一化处;

32、降维重组模块,其设置为对归一化处理后的特征字段,将相关性较低的特征字段或相似的特征字段进行降维处理,并将降维后的新特征字段和未降维处理的原特征字段重组为特征字段数据集;

33、训练模块,其设置为将标识有直播用户标签的特征字段数据集作为训练样本输入训练网络模型中训练,以建立直播用户群体识别模型;

34、预测模块,其设置为利用直播用户群体识别模型对待识别用户进行预测,识别直播用户群体。

35、进一步的,所述系统还包括:

36、更新模块,其设置为在特征字段归一化处理后,对各个特征字段引入时间衰减因子进行更新。

37、第三方面,本公开提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如第一方面中任一所述的直播用户挖掘方法。

38、第四方面,本公开提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的直播用户挖掘方法。

39、有益效果:

40、本公开提供的直播用户挖掘方法、直播用户挖掘系统、电子设备及存储介质,基于运营商大数据进行直播用户群体识别,通过各个特征标签中的特征字段全面地揭示直播用户的特征和行为模式,并且对部分相关性较低或相似度较高的特征进行降维处理,将未处理的原特征字段与部分降维后的特征字段重组为新特征字段,既能保留更多特征信息又能够有效降低特征维度,从而使模型泛化能力增强,能够高效且精准的识别直播用户群体。

本文档来自技高网...

【技术保护点】

1.一种直播用户挖掘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求2所述的方法,其特征在于,所述对各个特征字段引入时间衰减因子进行更新包括:

5.根据权利要求1所述的方法,其特征在于,所述将相关性较低的特征字段或相似的特征字段进行降维处理包括:

6.根据权利要求5所述的方法,其特征在于,所述引入多层感知机MLP对相关性较低的特征字段或相似的特征字段进行降维处理包括:

7.一种直播用户挖掘系统,其特征在于,所述系统包括:

8.根据权利要求7所述的系统,其特征在于,所述系统还包括:

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如权利要求1-6中任一项所述的直播用户挖掘方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的直播用户挖掘方法。

...

【技术特征摘要】

1.一种直播用户挖掘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,

4.根据权利要求2所述的方法,其特征在于,所述对各个特征字段引入时间衰减因子进行更新包括:

5.根据权利要求1所述的方法,其特征在于,所述将相关性较低的特征字段或相似的特征字段进行降维处理包括:

6.根据权利要求5所述的方法,其特征在于,所述引入多层感知机mlp对相关性较低的特征字段或相似的特征字段进行降维处...

【专利技术属性】
技术研发人员:王栋梁张晴晴王天翼成晨韩玉辉程新洲
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1