主题聚类方法及知识抽取方法和相关装置、设备、介质制造方法及图纸

技术编号:33086092 阅读:10 留言:0更新日期:2022-04-15 10:49
本申请公开了一种主题聚类方法及知识抽取方法和相关装置、设备、介质,其中,主题聚类方法包括:获取数据表中各个字段的信息熵,并获取字段之间的数据相关情况;其中,数据相关情况包括以下任一者:字段之间存在数据跟随变化关系、字段之间不存在数据跟随变化关系;基于字段的信息熵和字段之间的数据相关情况,得到各个字段之间的数据相关度;基于各个字段之间的数据相关度,将数据表中字段进行聚类,得到各个字段所属的主题。上述方案,能够提高数据表主题聚类的准确性。据表主题聚类的准确性。据表主题聚类的准确性。

【技术实现步骤摘要】
主题聚类方法及知识抽取方法和相关装置、设备、介质


[0001]本申请涉及数据表处理
,特别是涉及一种主题聚类方法及知识抽取方法和相关装置、设备、介质。

技术介绍

[0002]在诸如交通、政务、医疗等众多垂直领域,均存在着大量宝贵的知识,且随着信息化的普及,数据库技术的发展和各个行业对累积、应用数据资源重要性意识的不断提升,数据已经成为每个行业成长前进的关键驱动力。在现实场景中,可能存在着大量复杂表,其涉及多个不同主题,故识别出数据表中各个字段所属的主题,是后续诸如知识挖掘等诸多应用的基础所在。
[0003]以交通领域为例,数据表中可能存在路段长度字段、路段等级字段、排队长度字段等。在此其中,路段长度通常是连续型的数值(如,16.9米),而路段等级通常是类型字段(如,快速路、主干路、支路等),某个时段的排队长度通常也是连续型的数值(如,28.5米)。路段长度字段和路段等级字段都属于路段的基础特征,不受时间、路况等因素影响,故应划分为属于同一主题,而排队长度字段描述的是某个时间下路段的某种状态值,故应划分在不同主题下。然而,现有技术通过欧氏距离来进行主题划分时,由于路段长度字段和路段等级字段之间的欧氏距离远大于路段长度字段和排队长度字段之间的欧氏距离。由此可见,现有的主题识别方式在面对复杂表时,往往极易出现错误。有鉴于此,如何提高数据表主题聚类的准确性成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种主题聚类方法及知识抽取方法和相关装置、设备、介质,能够提高数据表主题聚类的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种主题聚类方法,包括:获取数据表中各个字段的信息熵,并获取字段之间的数据相关情况;其中,数据相关情况包括以下任一者:字段之间存在数据跟随变化关系、字段之间不存在数据跟随变化关系;基于字段的信息熵和字段之间的数据相关情况,得到各个字段之间的数据相关度;基于各个字段之间的数据相关度,将数据表中字段进行聚类,得到各个字段所属的主题。
[0006]为了解决上述技术问题,本申请第二方面提供了一种知识抽取方法,包括:对数据表中各个字段进行主题识别,得到各个字段所属的主题;其中,主题识别是利用上述第一方面中的主题聚类方法执行的;从属于相同主题的字段中,提取知识数据。
[0007]为了解决上述技术问题,本申请第三方面提供了一种主题聚类装置,包括:获取模块、度量模块和聚类模块,获取模块,用于获取数据表中各个字段的信息熵,并获取字段之间的数据相关情况;其中,数据相关情况包括以下任一者:字段之间存在数据跟随变化关系、字段之间不存在数据跟随变化关系;度量模块,用于基于字段的信息熵和字段之间的数据相关情况,得到各个字段之间的数据相关度;聚类模块,用于基于各个字段之间的数据相
关度,将数据表中字段进行聚类,得到各个字段所属的主题。
[0008]为了解决上述技术问题,本申请第四方面提供了一种知识抽取装置,包括:主题识别模块和数据提取模块,主题识别模块,用于对数据表中各个字段进行主题识别,得到各个字段所属的主题;其中,主题识别是利用上述第三方面中的主题聚类装置执行的;数据提取模块,用于从属于相同主题的字段中,提取知识数据。
[0009]为了解决上述技术问题,本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的主题聚类方法,或实现上述第二方面中的知识抽取方法。
[0010]为了解决上述技术问题,本申请第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的主题聚类方法,或实现上述第二方面中的知识抽取方法。
[0011]上述方案,获取数据表中各个字段的信息熵,并获取字段之间的数据相关情况,且数据相关情况包括以下任一者:字段之间存在数据跟随变化关系、字段之间不存在数据跟随变化关系,在此基础上,再基于字段的信息熵和字段之间的数据相关情况,得到各个字段之间的数据相关度,并基于各个字段之间的数据相关度,将数据表中字段进行聚类,得到各个字段所属的主题,故能够通过数据相关情况以及信息熵两个方面来衡量两个字段之间的数据相关度,有利于尽可能地提升数据相关度的准确性,故在即使面对复杂表时也能够提高数据表主题聚类的准确性。
附图说明
[0012]图1是本申请主题聚类方法一实施例的流程示意图;
[0013]图2是本申请知识抽取方法一实施例的流程示意图;
[0014]图3是本申请知识抽取方法一实施例的过程示意图;
[0015]图4是本申请主题聚类装置一实施例的框架示意图;
[0016]图5是本申请知识抽取装置一实施例的框架示意图;
[0017]图6是本申请电子设备一实施例的框架示意图;
[0018]图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0019]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0020]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0021]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0022]请参阅图1,图1是本申请主题聚类方法一实施例的流程示意图。
[0023]具体而言,可以包括如下步骤:
[0024]步骤S11:获取数据表中各个字段的信息熵,并获取字段之间的数据相关情况。
[0025]需要说明的是,数据表可以包含多个字段。通常而言,数据表中可以包含一个或多个主键,以及分别围绕各个主键展开的若干字段。以订单交易表为例,数据表可以包含如下字段:交易订单号、交易时间、交易金额、买卖双方ID;买家ID、买家年龄、买家性别、买家职业;卖家ID、卖家年龄、卖家性别。在此其中,交易时间、交易金额、买卖双方ID这几个字段,可以视为是围绕交易订单号展开的,故可以将交易订单号视为作为主键的字段;类似地,买家年龄、买家性别、买家职业这几个字段,可以视为是围绕买家ID展开的,故可以将买家ID视为作为主键的字段;类似地,卖家年龄、卖家性别这几个字段,可以视为是围绕卖家ID展开的,故可以将卖家ID视为作为主键的字段。其他情况可以以此类推,在此不再一一举例。
[0026]在一个实施场景中,数据表各个字段下分别具有数据集合,且每个数据集合可以包括顺序排列的若干元素。请结合参阅表1,表1示各机组乘机信息一实施例的示意表。如表1所示,数据表包含5个字段,分别为“编号”、“型号”、“机龄”、“身份证号”、“性别”。其中,字段“编号”下的数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题聚类方法,其特征在于,包括:获取数据表中各个字段的信息熵,并获取所述字段之间的数据相关情况;其中,所述数据相关情况包括以下任一者:所述字段之间存在数据跟随变化关系、所述字段之间不存在所述数据跟随变化关系;基于所述字段的信息熵和所述字段之间的数据相关情况,得到各个所述字段之间的数据相关度;基于各个所述字段之间的数据相关度,将所述数据表中所述字段进行聚类,得到各个所述字段所属的主题。2.根据权利要求1所述的方法,其特征在于,所述获取所述字段之间的数据相关情况,包括:提取所述数据表中第一字段下的第一数据集合和第二字段下的第二数据集合;其中,所述第一字段和所述第二字段为所述数据表中不同所述字段,且所述第一数据集合包含顺序排列的若干第一元素,所述第二数据集合包含顺序排列的若干第二元素;基于所述第一数据集合,获取顺序排列的各个第一元素对的第一变化情况,并基于所述第二数据集合,获取顺序排列的各个第二元素对的第二变化情况;其中,所述第一元素对包括所述第一数据集合中两个相邻所述第一元素,所述第一变化情况包括所述第一元素对是否发生变化,所述第二变化情况包括所述第二元素对是否发生变化;基于所述第一变化情况和所述第二变化情况,确定所述第一字段和所述第二字段之间的数据相关情况。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一数据集合,获取顺序排列的各个第一元素对的第一变化情况,或者,所述基于所述第二数据集合,获取顺序排列的各个第二元素对的第二变化情况,包括:响应于数据集合中各个元素的数据类型为数值的情况下,检测元素对之差是否为零,若是则所述元素对的变化情况包括所述元素对未发生变化,否则所述元素对的变化情况包括所述元素对发生变化;响应于数据集合中各个元素的数据类型不为数值的情况下,获取所述数据集合中所述元素的映射数值,并检测所述元素对的映射数值之差是否为零,若是则所述元素对的变化情况包括所述元素对未发生变化,否则所述元素对的变化情况包括所述元素对发生变化;其中,在所述数据集合为所述第一数据集合的情况下,所述元素对为所述第一元素对,所述变化情况为所述第一变化情况,在所述数据集合为所述第二数据集合的情况下,所述元素对为所述第二元素对,所述变化情况为所述第二变化情况。4.根据权利要求2所述的方法,其特征在于,所述第一变化情况和所述第二变化情况均以指示数值表示,且所述指示数值包括第一数值和第二数值,所述第一数值表示发生变化,所述第二数值表示未发生变化;所述基于所述第一变化情况和所述第二变化情况,确定所述第一字段和所述第二字段之间的数据相关情况,包括:将位于相同序位的所述第一元素对和所述第二元素对两者的指示数值,作为一个数值对;检测各个所述数值对之差是否均为零,若是,则确定所述第一字段和所述第二字段之间的数据相关情况包括存在所述数据跟
随变化关系;否则,则确定所述第一字段和所述第二字段之间的数据相关情况包括不存在所述数据跟随变化关系。5.根据权利要求1所述的方法,其特征在于,所述基于所述字段的信息熵和所述字段之间的数据相关情况,得到各个所述字段之间的数据相关度,包括:响应于所述数据相关情况包括所述字段之间存在所述数据跟随变化关系,基于所述字段之间所述信息熵之差的绝对值,得到所述字段之间的数据相关度;响应于所述数据相关情况包括所述字段之间不存在所述数据跟随变化关系,...

【专利技术属性】
技术研发人员:谭昶刘丹月曹伟灿范磊张友国吕军陈恩红胡少云刘江冯祥刘啸李亚玲
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1