特征提取方法、装置、服务器及计算机可读存储介质制造方法及图纸

技术编号:20493373 阅读:24 留言:0更新日期:2019-03-02 23:18
本发明专利技术公开了一种特征提取方法、装置、服务器及计算机可读存储介质,属于移动互联网领域。该方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将训练数据集的特征归入对应的分组,并更新模型参数;对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。本发明专利技术通过特征分组的选择机制,在特征提取前对特征样本进行预分组,对新增的特征进行分组特征关联性计算,有效的解决特征冗余计算的问题,通过引入特征收缩变量对分组特征进一步优化分组,使得特征分组选择效率大大提高,并能支持在线动态数据的特征提取。

Feature Extraction Method, Device, Server and Computer Readable Storage Media

The invention discloses a feature extraction method, device, server and computer readable storage medium, which belongs to the field of mobile Internet. The method includes: pre-grouping the pre-training data sets on the wireless side and the user side according to the feature correlation to get the initialization model parameters; grouping the training data sets according to the initialization model parameters, grouping the characteristics of the training data sets into the corresponding grouping, and updating the model parameters; iteratively optimizing the feature contraction variables of each grouping feature. The results of feature selection on wireless side and user side are obtained. Through the selection mechanism of feature grouping, the feature samples are pre-grouped before feature extraction, and the new features are grouped by feature correlation calculation. The problem of feature redundancy calculation is effectively solved. The grouping feature is further optimized by introducing feature shrinkage variable, which greatly improves the efficiency of feature grouping selection and supports the features of online dynamic data. Extraction.

【技术实现步骤摘要】
特征提取方法、装置、服务器及计算机可读存储介质
本专利技术涉及移动互联网
,尤其涉及一种特征提取方法、装置、服务器及计算机可读存储介质。
技术介绍
近年来,移动互联网数据流量爆炸性增长,业务类型极其丰富,不同业务自身的行为对网络性能的影响日益深远,因此,研究用户侧DPI(deeppacketinspection,深度包检测,)与无线侧无线资源利用率之间的关联关系,对进一步获取4G网络扩容逻辑显得尤为重要。目前,为了实现资源的合理利用,需要进一步对资源特征进行分析,而在特征提取研究中,通过移除不相关的和冗余的特征来缓解维度灾难的做法是将数据的特征两两进行比较,这种做法计算量大且特征基数量大,在实际应用中,特征提取的泛化性能低,学习过程缓慢,因此,移动网络下从大量无线侧和用户侧数据中提取特征需要消耗很长的训练时间和巨大的内存资源,效率十分低下。此外,传统的特征提取对象是离线的数据(数据是确定的),即研究假设训练实例的所有特征都是已知的,并且整个特征提取的过程是以离线的学习方式进行,然而在现实应用中,这种假设并不是一直成立的。因此,训练实例需要以在线的方式连续到达,支持在线动态数据的特征提取。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种特征提取方法、装置、服务器及计算机可读存储介质,以解决移动网络中无线侧和用户侧数据的特征提取中,两两特征相关计算量大以及特征基数量大的问题而消耗巨大的内存资源的技术问题。本专利技术解决上述技术问题所采用的技术方案如下:根据本专利技术的一个方面,提供的一种特征提取方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。优选的,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:将所述预训练数据集输入特征选择器进行特征关联性计算;根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。优选的,所述根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数,进一步包括:将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;根据分组特征关联性计算结果,把训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。优选的,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征的标签,i表示分组的编号;表示特征fj与分组的特征关联系数,表示特征fj与分组的特征互信息,H(fj)表示特征fj的信息熵,表示分组的特征的信息熵;当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征标签,i表示分组的编号;表示特征fj与分组的特征的对称不确定度关联系数,表示特征fj和分组的特征的协方差,表示特征fj的方差,表示分组的特征的方差。优选的,所述对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果包括:对每一分组特征对应的特征收缩变量集进行更新;将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。优选的,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;表示特征收缩变量集,且w表示权重向量,w′为w的转置向量,ξ表示松弛变量,为函数复杂度,C表示正则化参数;s.t.表示后面为前式的限制条件,yi表示分类结果,且yi∈(-1,0,1),xi表示特征值;表示表示特征值与收缩变量对应相乘;b表示经特征收缩变量改变后的特征与原特征之间的变化大小;所述将所述特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作包括按以下公式进行迭代计算,抛弃特征收缩变量为0或趋于0的特征:其中,fi表示特征数据,ρ为拉格朗日乘数,表示ρ的转置;j表示分组编号,σ表示分组数;为特征收缩变量集,且i表示分组内的特征编号,i=1,...,n,n表示分组的特征个数;表示函数复杂度,yi表示分类结果,且yi∈(-1,0,1);表示特征Si的特征值;C表示正则化参数。根据本专利技术的另一个方面,提供的一种特征提取装置包括预分组模块、分组模块和优化模块,其中:预分组模块,用于对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;分组模块,用于根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数;分组优化模块,用于对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果。优选的,所述预分组模块包括特征关联性计算单元和分组生成单元,其中:特征关联性计算单元,用于将所述预训练数据集输入所述特征选择器进行征关联性计算;分组生成单元,用于根据特征关联性计算结果和关联参数集,将预训练数据集的每一数据特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量;其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量集、分组数以及关联参数集。优选的,所述分组模块进一步包括分组特征关联性计算单元和分组更新单元,其中:分组特征关联性计算单元,用于将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;分组更新单元,用于根据分组特征关联性计算结果,将训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集。优选的,所述分组优化模块包括特征收缩变量计算模块和特征收缩变量优化模块,其中:特征收缩变量计算单元,用于对每一分组特征对应的特征收缩变量集进行更新;特征收缩变量优化单元,用于将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。根据本专利技术的再一个方面,提供的一种特征提取服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述特征提取方法的步骤。根据本专利技术的又一个方面,提供的一种计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述特征提取方法的步骤本文档来自技高网...

【技术保护点】
1.一种特征提取方法,其特征在于,该方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。

【技术特征摘要】
1.一种特征提取方法,其特征在于,该方法包括:对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数;根据初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的特征归入对应的分组,并更新所述模型参数;对所述模型参数的每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧的特征选择结果。2.根据权利要求1所述的特征提取方法,其特征在于,所述对无线侧和用户侧的预训练数据集根据特征关联性进行预分组,得到初始化模型参数包括:将所述预训练数据集输入特征选择器进行特征关联性计算;根据特征关联性计算结果和关联参数集,将预训练数据集的每一特征归入对应的支持-附属特征集,同时更新分组数;根据支持-附属特征集生成对应的支持特征集和特征收缩变量,得到初始化模型参数;其中,所述模型参数包括支持-附属特征集、支持特征集、特征收缩变量、分组数以及关联参数集。3.根据权利要求1所述的特征提取方法,其特征在于,所述根据所述初始化模型参数对训练数据集进行分组特征关联性计算,将所述训练数据集的数据的特征归入对应的分组,并更新所述模型参数,进一步包括:将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算;根据分组特征关联性计算结果,把训练数据集的每一数据特征归入所述支持-附属特征集,并更新所述分组数;根据更新后的支持-附属特征集,形成新的支持特征集和对应的特征收缩变量集,得到动态更新的模型参数。4.根据权利要求3所述的特征提取方法,其特征在于,所述将所述训练数据集和所述初始化模型参数输入特征选择器对训练数据集的每一数据特征进行分组特征关联性计算中包括:当分组的特征值是线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征的标签,i表示分组的编号;表示特征fj与分组的特征关联系数,表示特征fj与分组的特征互信息,H(fj)表示特征fj的信息熵,表示分组的特征的信息熵;当分组的特征值是非线性数据时,采用以下公式对训练数据集的每一数据特征进行分组特征关联性计算:其中,fj表示数据特征,j表示训练数据集中的数据特征编号;表示分组特征标签,i表示分组的编号;表示特征fj与分组的特征的对称不确定度关联系数,表示特征fj和分组的特征的协方差,表示特征fj的方差,表示分组的特征的方差。5.根据权利要求1所述的特征提取方法,其特征在于,所述对每一分组特征的特征收缩变量进行迭代优化,得到无线侧和用户侧特征选择结果包括:对每一分组特征对应的特征收缩变量集进行更新;将分组中的特征根据迭代优化后趋于稳定的特征收缩变量进行取舍操作,得到最后的优化特征集。6.根据权利要求5所述的特征提取方法,其特征在于,所述对每一分组特征对应的特征收缩变量集进行更新按以下公式进行:其中,i表示分组内的特征编号,i=1,...,n,n表示分组内的特征个数;表示特征收缩变量集,且w表示权重向量,w′为w的转置向量,ξ表示松弛变量,为函数复杂度,C表示正则...

【专利技术属性】
技术研发人员:邵敏峰
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1