一种数据分类方法和系统技术方案

技术编号:17912537 阅读:28 留言:0更新日期:2018-05-10 18:20
本申请提供了一种数据分类方法和系统,包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。

【技术实现步骤摘要】
一种数据分类方法和系统
本申请涉及数据分析
,具体而言,涉及一种数据分类方法和系统。
技术介绍
目前,在各个平台获取到大量数据后,一般是通过手动标注的方式对大量数据进行分类,这种操作方式比较耗费人力,也比较浪费时间,在实际操作过程中,由于操作人员认知的差别,导致数据的分类不合理、针对的领域不够明确,分类效果也无法满足实际应用的需求,进而给数据的使用带来不便,降低了数据使用过程中的利用率。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据分类方法和系统,用于解决现有技术中的对数据分类不科学导致数据应用效率低的问题。第一方面,本申请实施例提供了一种数据分类方法,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。可选地,所述预设相关词为该分类领域对应的各关键词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。可选地,所述预设相关词为该分类领域对应的领域名称词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。可选地,采用如下方式构建分类领域相关度集:从预设平台获取语料;采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;从所述关键词集中确定表征各领域的领域名称词;针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的分类领域相关度集。可选地,针对待分类词包含多个词的情况,还包括确定待分类词的步骤:获取待分类数据和所述待分类数据的描述信息;对所述待分类数据以及所述描述信息进行合成处理;对合成后的待分类数据进行分词处理;将分词处理得到的词中,有效的且具有名词属性的词确定为待分类词。可选地,根据所述待分类词与多个分类领域之间的相关度,确定分类结果,具体包括:针对每个分类领域,将待分类数据对应的各待分类词与该分类领域之间的相关度相加,得到所述待分类数据与该分类领域之间的相关度;根据所述待分类数据与多个分类领域之间的相关度,确定所述待分类数据所属分类领域。第二方面,本申请实施例提供了一种数据分类系统,该系统包括:获取模块,用于获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;第一确定模块,用于针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;计算模块,用于将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;第二确定模块,用于根据所述待分类词与多个分类领域之间的相关度,确定分类结果。可选地,所述预设相关词为该分类领域对应的各关键词;所述第一确定模块具体用于:确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;所述计算模块具体用于:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。第三方面,本申请实施例提供了一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。本申请实施例提供的数据分类方法和系统,包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。在对待分类词进行分类时,采用预先生成的分类领域相关度集,使得分类领域更加明确,减少了使用人工对数据集进行标注耗费的时间,采用分类领域确定模型确定待分类词的分类领域,使得数据的分类更加准确,提高数据的利用率。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种数据分类方法的流程示意图;图2为本申请实施例提供的一种数据分类系统的第一种结构示意图;图3为本申请实施例提供的一种数据分类系统的第二种结构示意图;图4为本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本文档来自技高网...
一种数据分类方法和系统

【技术保护点】
一种数据分类方法,其特征在于,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。

【技术特征摘要】
1.一种数据分类方法,其特征在于,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。2.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的各关键词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。3.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的领域名称词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。4.如权利要求1-3任一项所述的方法,其特征在于,采用如下方式构建分类领域相关度集:从预设平台获取语料;采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;从所述关键词集中确定表征各领域的领域名称词;针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并将前预设数量...

【专利技术属性】
技术研发人员:杨涛王肃杨耀威
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1