【技术实现步骤摘要】
一种数据分类方法和系统
本申请涉及数据分析
,具体而言,涉及一种数据分类方法和系统。
技术介绍
目前,在各个平台获取到大量数据后,一般是通过手动标注的方式对大量数据进行分类,这种操作方式比较耗费人力,也比较浪费时间,在实际操作过程中,由于操作人员认知的差别,导致数据的分类不合理、针对的领域不够明确,分类效果也无法满足实际应用的需求,进而给数据的使用带来不便,降低了数据使用过程中的利用率。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据分类方法和系统,用于解决现有技术中的对数据分类不科学导致数据应用效率低的问题。第一方面,本申请实施例提供了一种数据分类方法,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。可选地,所述预设相关词为该分类领域对应的各关键词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括: ...
【技术保护点】
一种数据分类方法,其特征在于,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
【技术特征摘要】
1.一种数据分类方法,其特征在于,该方法包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。2.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的各关键词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。3.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的领域名称词;确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。4.如权利要求1-3任一项所述的方法,其特征在于,采用如下方式构建分类领域相关度集:从预设平台获取语料;采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;从所述关键词集中确定表征各领域的领域名称词;针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并将前预设数量...
【专利技术属性】
技术研发人员:杨涛,王肃,杨耀威,
申请(专利权)人:国信优易数据有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。