【技术实现步骤摘要】
一种基于多视图深度度量学习的混合属性数据转换方法
[0001]本专利技术涉及混合属性数据转换的人工智能
,尤其涉及一种基于多视图深度度量学习的混合属性数据转换方法。
技术介绍
[0002]随着信息技术的迅猛发展,在医药卫生、社交媒体等行业的大数据系统或云服务系统中存在着大量的包含数值属性和分类属性的结构化数据的混合属性数据。此外,数据挖掘领域中很多公开实验数据集也是混合属性数据。比如,在著名的美国加州大学Irvine分校(UCI)数据库中混合属性数据集约占1/3,Kaggle数据库中的混合属性数据集也广泛存在。混合属性数据中的分类属性不同于数值属性,其不能直接进行代数运算(如数学上的四则运算),致使很多基于数值输入的机器学习算法(如神经网络、聚类、逻辑回归等)不能分析/挖掘这些数据。因此,将混合属性数据转换为单一的数值属性数据,即将混合属性数据中的分类属性转换为数值属性数据后,再与混合属性数据中原有的数值属性数据拼接,是解决上述问题的常用技巧。
[0003]目前,国内外已有多种转换混合属性数据的方法,然而,当面对具有复杂耦合关系的混合属性数据时,这些方法却难以将这些分类属性数据转换为高质量的数值数据,因此,急需人们探究一种高性能的混合属性数据转换方法,以提高后续阶段(即数据挖掘或机器学习阶段)的性能和可靠性。
[0004]混合属性数据转换为单一的数值属性数据的核心是如何将混合属性数据中分类属性数据转换为高质量的数值数据。最近新兴起的分类表示学习是将分类数据转换/嵌入/表示为高质量数值数据的热门技 ...
【技术保护点】
【技术特征摘要】
1.一种基于多视图深度度量学习的混合属性数据转换方法,其特征在于,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,所述多视图深度度量学习模型包括:多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量;融合模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。2.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,获取待转换样本集之后,还包括对待转换样本集进行预处理的步骤。3.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,所述多视图信息提取模块通过待转换样本集分类属性数据中分类属性的分类值的后验频率和OneHot编码共同提取属性内耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中不同分类属性之间的条件交互信息提取属性间耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中属性与类标签的相互作用提取属性对类耦合视图。4.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性内耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n(a)表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],表示第j维分类属性下包含的分类值数量;表示第j维分类属性的属性内耦合扩展矩阵表示第j维分类属性的属性内耦合扩展矩阵表示待转换样本集中第j维分类属性的分类值集合,f
Ia
(x
j,*
)表示第j维分类属性的属性内耦合扩展向量集合;设i
′
表示第j维分类属性下分类值的索引,则第j维分类属性下第i
′
个分类值x
j,i
′
的属性内耦合扩展向量为:p
post
(x
j,i
′
)表示第j维分类属性下第i
′
个分类值x
j,i
′
的后验频率。5.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性间耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性
维数,j表示分类属性索引,j∈[1,n
(a)
],表示表示第k维分类属性下包含的分类值数量,k∈[1,n
(a)
],j≠k,表示第j维分类属性之外的所有分类属性包含的分类值总数量;表示第j维分类属性的属性间耦合扩展矩阵:表示第j维分类属性的属性间耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
Ie
(x
j,*
)表示第j维分类属性的属性间耦合扩展向量集合;设i
′
表示第j维分类属性下分类值的索引,则第j维分类属性下第i
′
个分类值x
j,i
′
的属性间耦合扩展向量为:A
k
表示第k维属性下的分类值集合,x
k,i
″
∈A
k
,p(x
j,i
′
|x
k,i
″
)表示x
j,i
′
在第k维属性的第i
″
个分类值为x
k,i
″
的条件下的条件概率。6.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性对类耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],n
(c)
表示分类标签数量;表示第j维分类属性的属性对类耦合扩展矩阵:属性对类耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
AC
(x
j,*
)表示第j维分类属性的属性对类耦合扩展向量集合,设i
′
表示第j维分类属性下分类值的索引,则第j维分类属性下第i
′
个分类值x
j,i
′
的属性对类耦合扩展向量为:p(c
i
″
|x
j,i
′
)表示第i
″′
个类标签c
i
″′
在x
...
【专利技术属性】
技术研发人员:李秋德,吉胜芬,余洋,胡思贵,熊庆宇,
申请(专利权)人:贵州医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。