基于图谱的实体特征选择方法、装置、设备和存储介质制造方法及图纸

技术编号:22260954 阅读:22 留言:0更新日期:2019-10-10 14:05
本发明专利技术实施例公开了一种基于图谱的实体特征选择方法、装置、设备和存储介质。该方法包括:获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。通过上述技术方案,实现了更加准确且更加高效地从图谱中自动选择实体特征,降低了系统资源消耗和时间损耗。

Entity feature selection method, device, device and storage medium based on atlas

【技术实现步骤摘要】
基于图谱的实体特征选择方法、装置、设备和存储介质
本专利技术实施例涉及计算机数据处理技术,尤其涉及一种基于图谱的实体特征选择方法、装置、设备和存储介质。
技术介绍
随着人工智能和大数据技术的兴起,互联网中每天产生大量的关系数据。如果要对其进行数据挖掘,例如聚类分析或异常检测等,就需要从关系数据中提取特征,以便用于后续的相应的机器学习算法。目前从关系数据中构建特征的方法有:第一类,基于专家知识的实体特征选择。该类方法主要利用场景内的业务经验,由专家提出能够体现目标异常的重要属性和度量等特征,并进一步人工的将这些基本特征进行组合。其完全基于先验知识来设计对目标的特征表达,进而通过特征加工实现特征的构建。第二类,基于图嵌入技术的实体特征选择。该类方法需要先基于互联网中的关系数据来构建图数据(也称图谱),图谱是利用关系数据将互联网用户和团体以虚拟的方式联系在一起,构成一个个超越地理桎梏的关系网络。之后,需要将当前节点及其所有相关邻居节点的信息向量化为当前节点的特征表达,以实现自动构造当前节点的特征表达。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:第一,基于专家知识的实体特征选择方法,完全依赖业务专家对场景的个人理解,由于专家的知识水平和领域背景的不同,导致依赖专家知识的特征生成过程带有不可避免的倾向性,导致公平性受到人为干扰。而当场景复杂性和数据量提升之后,这一问题被进一步放大,导致依靠专家知识的实体特征选择已经不能覆盖数据中的显著特征,甚至陷入特征空间中的某些较狭隘的局部,导致特征质量较差,且耗时耗力。第二,基于图嵌入技术的实体特征选择方法虽然不再依赖专家的个人知识储备,同时可借助邻居节点的属性信息表达当前节点的特征,能较好的利用图谱的结构特性。但是当关系数据中结构变得复杂,属性变得繁多时,这种粗放的实体特征自动选择方法带来无法忍受的计算资源和时间耗损。
技术实现思路
本专利技术实施例提供一种基于图谱的实体特征选择方法、装置、设备和存储介质,以实现更加准确且更加高效地从图谱中自动确定实体特征,降低实体特征选择的系统资源消耗和时间损耗。第一方面,本专利技术实施例提供了一种基于图谱的实体特征选择方法,包括:获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。第二方面,本专利技术实施例还提供了一种基于图谱的实体特征选择装置,该装置包括:目标图谱获取模块,用于获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;模块度矩阵确定模块,用于确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;分解矩阵生成模块,用于对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;实体特征选择模块,用于依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。第三方面,本专利技术实施例还提供了一种设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所提供的基于图谱的实体特征选择方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术任意实施例所提供的基于图谱的实体特征选择方法。本专利技术实施例通过获取业务场景对应的包含目标实体类型的实体的目标图谱,并根据目标图谱确定能够表征目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距的模块度矩阵,实现了根据图数据的拓扑结构将业务场景对应的图数据转换为保留全局图信息的模块度矩阵,避免了实体特征选择过程中对先验知识和专家知识的依赖而导致的个体倾向性问题,为后续自动构建实体特征提供基础。通过对模块度矩阵进行奇异值分解,生成模块度矩阵的分解矩阵,并依据分解矩阵选择目标图谱中用于表征对应实体在业务场景中的多维度特征的目标实体类型的各实体特征,实现了模块度矩阵的快速降维,规避了大量复杂属性带来的过度计算,提高了实体特征的选择效率,降低了实体特征选择的系统资源消耗和时间损耗,扩大了实体特征选择的业务场景适用范围;并且奇异值分解所获得的特征向量包含更多、更全的图数据信息,使得各实体特征能够更加全面且稳定地表征业务场景对应的互联网数据,从而提高了实体特征的准确性和稳定性。附图说明图1是本专利技术实施例一中的一种基于图谱的实体特征选择方法的流程图;图2是本专利技术实施例二中的一种基于图谱的实体特征选择方法的流程图;图3是本专利技术实施例二中的奇异值变化曲线示意图;图4是本专利技术实施例三中的一种基于图谱的实体特征选择方法的流程图;图5是本专利技术实施例四中的一种基于图谱的实体特征选择装置的结构示意图;图6是本专利技术实施例五中的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一本专利技术实施例提供的基于图谱的实体特征选择方法可适用于从图谱中自动提取特征向量,以用于各种机器学习算法的情况。该方法可以由基于图谱的实体特征选择装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有数据运算功能的设备中,例如笔记本电脑、台式电脑或服务器等。参见图1,本实施例的方法具体包括如下步骤:S110、获取业务场景对应的目标图谱。其中,业务场景是指需要处理的事物所处的场景,其根据业务需求而定,例如业务需求为对电商平台中的数据进行归类分析,那么业务场景便为电商数据分类场景,又如业务需求为对社交网络中的数据进行异常检测,那么业务场景便为社交网络的异常检测场景等。图谱是一种图数据,其内包含各种类型(也可称为实体类型)的节点(也可称为实体)和节点之间的关联关系(也可称为边或实体关联关系)。目标图谱是可直接用于进行实体特征提取的图谱,其与初始图谱对应。初始图谱是指对大数据进行处理而直接获得的图谱。目标实体类型是指业务需求针对的主体所属的类型,例如业务需求为对用户行为或用户属性进行分析,那么目标实体类型便为用户类型,又如业务需求为对设备的使用情况或性能进行分析,那么目标实体类型便为设备类型等。具体地,在机器学习任务中,实体特征的选择(从实体的所有实体特征中选择有效的实体特征)一直是一切工作的基础,好的实体特征选择技术能够显著的提高机器学习模型的学习效率和效果。故本专利技术实施例提供了一种基于图谱的模块度矩阵奇异值分解的实体特征选择方法,以摒弃对先验知识和专家知识的依赖,且避免复杂场景下自动选择实体特征的过度计算,从而获得更加准确、稳定和全面的实体特征。具体实施时,先根据业务场景来获取目标图谱。该目标图谱可以是从业本文档来自技高网
...

【技术保护点】
1.一种基于图谱的实体特征选择方法,其特征在于,包括:获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。

【技术特征摘要】
1.一种基于图谱的实体特征选择方法,其特征在于,包括:获取业务场景对应的目标图谱,所述目标图谱中包含目标实体类型的实体;确定所述目标图谱的模块度矩阵,所述模块度矩阵用于表征所述目标图谱中任一对实体间是否产生实体关联关系的真实值和期望值之间的差距;对所述模块度矩阵进行奇异值分解,生成所述模块度矩阵的分解矩阵;依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征,所述实体特征用于表征对应实体在所述业务场景中的多维度特征。2.根据权利要求1所述的方法,其特征在于,所述获取业务场景对应的目标图谱包括:获取所述业务场景对应的初始图谱,所述初始图谱包含所述目标实体类型的实体;若所述初始图谱为异构图,则依据所述初始图谱中包含的各实体关联关系拆分所述初始图谱,获得所述初始图谱对应的各无向二分图,分别作为所述目标图谱。3.根据权利要求2所述的方法,其特征在于,所述获取所述业务场景对应的初始图谱包括:依据各设定实体类型和各设定实体关联关系,从互联网数据中进行数据提取,并依据数据提取结果构建所述初始图谱,其中,所述设定实体类型包含所述目标实体类型。4.根据权利要求3所述的方法,其特征在于,所述业务场景为社交网络中的异常用户检测场景,所述互联网数据为社交网络数据,所述设定实体类型包括用户类型、设备类型和互联网协议地址类型,所述目标实体类型为所述用户类型,所述设定实体关联关系包括用户与用户之间的关注关系、用户与设备之间的登录关系以及用户与互联网协议地址之间的登录关系;依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征包括:依据分解矩阵选择所述目标图谱中所述用户类型的各用户特征,所述用户特征用于表征所述用户在社交网络中的关注行为特征、基于设备的登录行为特征和基于互联网协议地址的登录行为特征;在依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体的特征之后,还包括:基于各所述用户特征,确定所述目标图谱中包含的各用户中的异常用户。5.根据权利要求1所述的方法,其特征在于,所述依据所述分解矩阵选择所述目标图谱中所述目标实体类型的各实体特征...

【专利技术属性】
技术研发人员:奚久洲曲洪涛张雯祝浩
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1