一种基于多视图深度度量学习的混合属性数据转换方法技术

技术编号:36187840 阅读:21 留言:0更新日期:2022-12-31 20:56
本发明专利技术提供了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,多视图深度度量学习模型包括:多视图信息提取模块,提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将属性内耦合视图、属性间耦合视图和属性对类耦合视图映射为相应的数值向量;融合模块,将多个视图的数值向量与待转换样本集的数值属性数据融合。能全面挖掘分类属性数据的本质特征,保持数据转换前后数据分布一致,将混合属性数据上的分类属性数据无损地表示为高质量的数值向量。量。量。

【技术实现步骤摘要】
一种基于多视图深度度量学习的混合属性数据转换方法


[0001]本专利技术涉及混合属性数据转换的人工智能
,尤其涉及一种基于多视图深度度量学习的混合属性数据转换方法。

技术介绍

[0002]随着信息技术的迅猛发展,在医药卫生、社交媒体等行业的大数据系统或云服务系统中存在着大量的包含数值属性和分类属性的结构化数据的混合属性数据。此外,数据挖掘领域中很多公开实验数据集也是混合属性数据。比如,在著名的美国加州大学Irvine分校(UCI)数据库中混合属性数据集约占1/3,Kaggle数据库中的混合属性数据集也广泛存在。混合属性数据中的分类属性不同于数值属性,其不能直接进行代数运算(如数学上的四则运算),致使很多基于数值输入的机器学习算法(如神经网络、聚类、逻辑回归等)不能分析/挖掘这些数据。因此,将混合属性数据转换为单一的数值属性数据,即将混合属性数据中的分类属性转换为数值属性数据后,再与混合属性数据中原有的数值属性数据拼接,是解决上述问题的常用技巧。
[0003]目前,国内外已有多种转换混合属性数据的方法,然而,当面对具有复杂耦合关系的混合属性数据时,这些方法却难以将这些分类属性数据转换为高质量的数值数据,因此,急需人们探究一种高性能的混合属性数据转换方法,以提高后续阶段(即数据挖掘或机器学习阶段)的性能和可靠性。
[0004]混合属性数据转换为单一的数值属性数据的核心是如何将混合属性数据中分类属性数据转换为高质量的数值数据。最近新兴起的分类表示学习是将分类数据转换/嵌入/表示为高质量数值数据的热门技术之一。该技术通过揭露分类属性数据中分类值、属性和样本三者之间多种复杂耦合关系,并融合这些异构耦合关系后将分类值表示为一个数值向量。人工智能领域普遍认为:一个好的表示学习方法是能够从分类属性数据的多种复杂耦合关系中挖掘数据的本质特征。在现有的表示学习方法中,本申请专利技术人发现大多数方法只挖掘了某一种耦合关系,例如:基于OneHot编码的算法只考虑了属性内分类值之间的耦合关系(如专利CN109740680A、US20190164083A1等),基于条件概率的差异差度量及变体只考虑了分类属性与分类属性之间的耦合关系(如专利CN110502552A等)。由于这些方法只考虑了一种耦合关系,因此它们可能会导致不能全面挖掘分类数据的本质特征。近年来新提出的一些表示学习方法能从多种耦合关系中提取数据特征,但在数据融合过程中大多数是采用基于核方法的浅层学习模型(如专利CN114139629A),由于核方法和浅层结构的特点,这些表示方法可能存在时间/空间复杂度较高、空间结构不易扩展、最优核函数不易确定等问题。
[0005]本申请专利技术人通过广泛的文献综合总结和实证探究发现,基于深度度量学习的表示方法在表示图像、文本、网络等方面表现出杰出的潜力,并且可以缓解上述这些问题。然而,现有的深度度量学习表示方法在数据转换过程忽略了数据之间的耦合关系和特征(如值语义、距离/相似性、属性交互、分布特征等),无法全面挖掘分类属性数据的本质特征,无
法将分类属性数据转换为高质量的数值数据。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中无法全面挖掘分类属性数据的本质特征,无法将分类属性数据转换为高质量的数值数据的技术问题,提供一种基于多视图深度度量学习的混合属性数据转换方法。
[0007]为了实现本专利技术的上述目的,本专利技术提供了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,所述多视图深度度量学习模型包括:多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量;融合模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。
[0008]上述技术方案:本专利技术通过属性内耦合视图、属性间耦合视图和属性对类耦合视图对分类属性数据之间的复杂耦合关系进行捕获,全面挖掘分类属性数据的本质特征,借助基于深层神经网络的深度学习子模型的强大学习能力,将分类属性数据转换为高质量的数值数据并与待转换样本集中的数值属性数据融合获得转换结果,便于后继数据挖掘和机器学习分类的处理,此外,本专利技术提供的混合属性的数据转换方法还具有以下有益技术效果:
[0009]可靠性:能保持数据转换前后的数据分布一致,可将混合属性数据上的分类属性数据无损地表示为高质量的数值向量,保证人工智能任务的可靠性;
[0010]高性能:转换后的数值数据作用于下一阶段的分类模型时,能取得高性能的分类指标(如准确率、召回率、F得分等);
[0011]高效性:转换后的数值向量具有低维度的特点,因此需要较少的运行时间;
[0012]便捷性:需要预设的参数提供了有效的参考范围,为用户设置参数提供指导,有利于实际的应用场景;
[0013]普适性:一种基于数据驱动的转换/表示/嵌入方法,可自适应于不同领域的混合属性数据集。
附图说明
[0014]图1是本专利技术实施例1中多视图深度度量学习模型的结构示意图;
[0015]图2是本专利技术实施例1一种应用场景中多视图深度度量学习模型的迭代学习流程示意图;
[0016]图3是本专利技术实施例1另一种应用场景中具体实施流程示意图;
[0017]图4是本专利技术实施例2中分类系统的结构示意图。
具体实施方式
[0018]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0019]在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0020]在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0021]实施例1
[0022]本实施例公开了一种基于多视图深度度量学习的混合属性数据转换方法,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视图深度度量学习的混合属性数据转换方法,其特征在于,包括:获取包括至少一个待转换样本的待转换样本集,待转换样本包括数值属性数据和分类属性数据;将待转换样本集输入预先训练好的多视图深度度量学习模型获得待转换样本集的转换结果,所述多视图深度度量学习模型包括:多视图信息提取模块,基于待转换样本集的分类属性数据提取待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图;深度度量模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图分别映射为相应的数值向量;融合模块,将待转换样本集的属性内耦合视图、属性间耦合视图和属性对类耦合视图映射的数值向量与待转换样本集的数值属性数据融合,将融合结果作为待转换样本集的转换结果。2.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,获取待转换样本集之后,还包括对待转换样本集进行预处理的步骤。3.如权利要求1所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,所述多视图信息提取模块通过待转换样本集分类属性数据中分类属性的分类值的后验频率和OneHot编码共同提取属性内耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中不同分类属性之间的条件交互信息提取属性间耦合视图;所述多视图信息提取模块通过待转换样本集分类属性数据中属性与类标签的相互作用提取属性对类耦合视图。4.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性内耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n(a)表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],表示第j维分类属性下包含的分类值数量;表示第j维分类属性的属性内耦合扩展矩阵表示第j维分类属性的属性内耦合扩展矩阵表示待转换样本集中第j维分类属性的分类值集合,f
Ia
(x
j,*
)表示第j维分类属性的属性内耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性内耦合扩展向量为:p
post
(x
j,i

)表示第j维分类属性下第i

个分类值x
j,i

的后验频率。5.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性间耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性
维数,j表示分类属性索引,j∈[1,n
(a)
],表示表示第k维分类属性下包含的分类值数量,k∈[1,n
(a)
],j≠k,表示第j维分类属性之外的所有分类属性包含的分类值总数量;表示第j维分类属性的属性间耦合扩展矩阵:表示第j维分类属性的属性间耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
Ie
(x
j,*
)表示第j维分类属性的属性间耦合扩展向量集合;设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性间耦合扩展向量为:A
k
表示第k维属性下的分类值集合,x
k,i

∈A
k
,p(x
j,i

|x
k,i

)表示x
j,i

在第k维属性的第i

个分类值为x
k,i

的条件下的条件概率。6.如权利要求1或2或3所述的基于多视图深度度量学习的混合属性数据转换方法,其特征在于,待转换样本集的属性对类耦合视图表示为:其中,n
(o)
表示待转换样本集中待转换样本的数量;n
(a)
表示待转换样本集的分类属性维数,j表示分类属性索引,j∈[1,n
(a)
],n
(c)
表示分类标签数量;表示第j维分类属性的属性对类耦合扩展矩阵:属性对类耦合扩展矩阵:表示待转换样本集中第j维分类属性的分类值集合,f
AC
(x
j,*
)表示第j维分类属性的属性对类耦合扩展向量集合,设i

表示第j维分类属性下分类值的索引,则第j维分类属性下第i

个分类值x
j,i

的属性对类耦合扩展向量为:p(c
i

|x
j,i

)表示第i
″′
个类标签c
i
″′
在x
...

【专利技术属性】
技术研发人员:李秋德吉胜芬余洋胡思贵熊庆宇
申请(专利权)人:贵州医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1