【技术实现步骤摘要】
一种数据处理方法、装置、存储介质及设备
[0001]本说明书涉及计算机
,尤其涉及一种数据处理方法、装置、存储介质及设备。
技术介绍
[0002]随着互联网技术的发展,人们通常通过互联网的招聘网站进行求职,招聘网站会根据海量招聘信息的任职要求,统计出各职位对应的技能需求,以帮助求职者更高效地求职。
[0003]由于招聘信息一般是非结构化文本,相关技术采用的数据处理方法是引入预先定义好的技能词典,根据该技能词典对招聘信息的任职要求文本进行分词,抽取每一份任职要求对应的技能需求。然而,这种方式需要预先定义好的技能词典,因此,若招聘数据中描述技能的词语未记录在技能词典中,则该方法无法识别出来,造成词语的遗漏,数据处理效果的精确度较低。
技术实现思路
[0004]为克服相关技术中存在的问题,本说明书提供了一种数据处理方法、装置、存储介质及设备。
[0005]根据本说明书实施例的第一方面,提供一种数据处理方法,所述方法包括:
[0006]获取招聘数据集,对所述招聘数据集中每份招聘数据提取出 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取招聘数据集,对所述招聘数据集中每份招聘数据提取出描述任职要求的文本;根据所述文本中包含的短语的权重及所述文本的主题概率分布,从所述文本中筛选出至少一个关键短语;根据筛选结果,获取指定职位对应的关键短语集;对所述指定职位对应的关键短语集进行聚类处理,获得多类关键短语子集后,基于语义相似度进行融合,根据融合结果获得用于描述所述指定职位的至少一种技能需求的数据。2.根据权利要求1所述的数据处理方法,其特征在于,对所述指定职位对应的关键短语集进行聚类处理,获得多类关键短语子集,包括:对所述指定职位对应的关键短语集中各关键短语分别进行向量表征,得到各关键短语的特征向量;根据预设的类别数,对所述各关键短语的特征向量进行聚类运算,获得多类关键短语子集。3.根据权利要求1所述的数据处理方法,其特征在于,所述用于描述所述指定职位的至少一种技能需求的数据基于每类关键短语子集的代表实体的第一频数确定;其中,所述第一频数是指所述关键短语子集中关键短语在所述指定职位对应的招聘数据中出现的次数;所述代表实体是所述关键短语子集中第一频数最高的关键短语。4.根据权利要求3所述的数据处理方法,其特征在于,所述基于语义相似度进行融合处理,包括:确定每类关键短语子集中代表实体与其他关键短语的语义相似度,将语义相似度大于第一预设值的其他关键短语的第一频数累加至所述代表实体的第一频数。5.根据权利要求3或4所述的数据处理方法,其特征在于,所述基于语义相似度进行融合处理,包括:若所有关键短语子集中任意两个代表实体之间的语义相似度高于第二预设值,将第一频数低的代表实体的第一频数累加至第一频数高的代表实体的第一频数上,并将第一频数低的代表实体对应的关键短语子集删除。6.根据权利要求1所述的数据处理方法,其特征在于,所述用于描述所述指定职位的至少一种...
【专利技术属性】
技术研发人员:蔡艳,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。