【技术实现步骤摘要】
主题聚类方法及知识抽取方法和相关装置、设备、介质
[0001]本申请涉及数据表处理
,特别是涉及一种主题聚类方法及知识抽取方法和相关装置、设备、介质。
技术介绍
[0002]在诸如交通、政务、医疗等众多垂直领域,均存在着大量宝贵的知识,且随着信息化的普及,数据库技术的发展和各个行业对累积、应用数据资源重要性意识的不断提升,数据已经成为每个行业成长前进的关键驱动力。在现实场景中,可能存在着大量复杂表,其涉及多个不同主题,故识别出数据表中各个字段所属的主题,是后续诸如知识挖掘等诸多应用的基础所在。
[0003]以交通领域为例,数据表中可能存在路段长度字段、路段等级字段、排队长度字段等。在此其中,路段长度通常是连续型的数值(如,16.9米),而路段等级通常是类型字段(如,快速路、主干路、支路等),某个时段的排队长度通常也是连续型的数值(如,28.5米)。路段长度字段和路段等级字段都属于路段的基础特征,不受时间、路况等因素影响,故应划分为属于同一主题,而排队长度字段描述的是某个时间下路段的某种状态值,故应划分在不同主题下。然而,现有技术通过欧氏距离来进行主题划分时,由于路段长度字段和路段等级字段之间的欧氏距离远大于路段长度字段和排队长度字段之间的欧氏距离。由此可见,现有的主题识别方式在面对复杂表时,往往极易出现错误。有鉴于此,如何提高数据表主题聚类的准确性成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种主题聚类方法及知识抽取方法和相关装置、设备、介质,能够提高数 ...
【技术保护点】
【技术特征摘要】
1.一种主题聚类方法,其特征在于,包括:获取数据表中各个字段的信息熵,并获取所述字段之间的数据相关情况;其中,所述数据相关情况包括以下任一者:所述字段之间存在数据跟随变化关系、所述字段之间不存在所述数据跟随变化关系;基于所述字段的信息熵和所述字段之间的数据相关情况,得到各个所述字段之间的数据相关度;基于各个所述字段之间的数据相关度,将所述数据表中所述字段进行聚类,得到各个所述字段所属的主题。2.根据权利要求1所述的方法,其特征在于,所述获取所述字段之间的数据相关情况,包括:提取所述数据表中第一字段下的第一数据集合和第二字段下的第二数据集合;其中,所述第一字段和所述第二字段为所述数据表中不同所述字段,且所述第一数据集合包含顺序排列的若干第一元素,所述第二数据集合包含顺序排列的若干第二元素;基于所述第一数据集合,获取顺序排列的各个第一元素对的第一变化情况,并基于所述第二数据集合,获取顺序排列的各个第二元素对的第二变化情况;其中,所述第一元素对包括所述第一数据集合中两个相邻所述第一元素,所述第一变化情况包括所述第一元素对是否发生变化,所述第二变化情况包括所述第二元素对是否发生变化;基于所述第一变化情况和所述第二变化情况,确定所述第一字段和所述第二字段之间的数据相关情况。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一数据集合,获取顺序排列的各个第一元素对的第一变化情况,或者,所述基于所述第二数据集合,获取顺序排列的各个第二元素对的第二变化情况,包括:响应于数据集合中各个元素的数据类型为数值的情况下,检测元素对之差是否为零,若是则所述元素对的变化情况包括所述元素对未发生变化,否则所述元素对的变化情况包括所述元素对发生变化;响应于数据集合中各个元素的数据类型不为数值的情况下,获取所述数据集合中所述元素的映射数值,并检测所述元素对的映射数值之差是否为零,若是则所述元素对的变化情况包括所述元素对未发生变化,否则所述元素对的变化情况包括所述元素对发生变化;其中,在所述数据集合为所述第一数据集合的情况下,所述元素对为所述第一元素对,所述变化情况为所述第一变化情况,在所述数据集合为所述第二数据集合的情况下,所述元素对为所述第二元素对,所述变化情况为所述第二变化情况。4.根据权利要求2所述的方法,其特征在于,所述第一变化情况和所述第二变化情况均以指示数值表示,且所述指示数值包括第一数值和第二数值,所述第一数值表示发生变化,所述第二数值表示未发生变化;所述基于所述第一变化情况和所述第二变化情况,确定所述第一字段和所述第二字段之间的数据相关情况,包括:将位于相同序位的所述第一元素对和所述第二元素对两者的指示数值,作为一个数值对;检测各个所述数值对之差是否均为零,若是,则确定所述第一字段和所述第二字段之间的数据相关情况包括存在所述数据跟
随变化关系;否则,则确定所述第一字段和所述第二字段之间的数据相关情况包括不存在所述数据跟随变化关系。5.根据权利要求1所述的方法,其特征在于,所述基于所述字段的信息熵和所述字段之间的数据相关情况,得到各个所述字段之间的数据相关度,包括:响应于所述数据相关情况包括所述字段之间存在所述数据跟随变化关系,基于所述字段之间所述信息熵之差的绝对值,得到所述字段之间的数据相关度;响应于所述数据相关情况包括所述字段之间不存在所述数据跟随变化关系,...
【专利技术属性】
技术研发人员:谭昶,刘丹月,曹伟灿,范磊,张友国,吕军,陈恩红,胡少云,刘江,冯祥,刘啸,李亚玲,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。