【技术实现步骤摘要】
一种K12阶段重复学校识别方法、装置、设备及存储介质
本专利技术涉及数据处理
,具体而言,涉及一种K12阶段重复学校识别方法、装置、设备及存储介质。
技术介绍
K12是指从幼儿园到12年级(高三)阶段的教育,在国际上被用作对基础教育阶段的统称。在我国,K12阶段的学校存在以下几个特点:(1)学校变更相对频繁,包括:学校新增、学校删除、学校更新;(2)尚无一个政府部门或其它第三方机构拥有完整的全国K12学校名称;(3)同一个学校有多种不同的叫法,如“xx县第二高中”与“xx市二高”、“xx市xx中心小学”与“xx中心小学”等。在上述背景下,目前K12教育行业相关应用在基础的学校数据管理上,面临以下痛点:(1)无法获取/收集K12教育所有学校数据,意味着系统中无法通过官方编码唯一标识一所学校;(2)针对新录入系统的学校,除完全相同的学校名称外,系统难以根据学校名称判断新增学校是否跟现有学校重复,且无其它可唯一标识学校的字段可直接使用;(3)由于数据库中无现成学校,为此需手工录入新增的学校,文本输入易错的特性给学校数据准确性带来潜在的风险。K12学校基础数据管理的 ...
【技术保护点】
1.一种K12阶段重复学校识别方法,其特征在于,包括如下步骤:接收待查询的学校信息以及行政级别区域信息;从数据库中获取与所述行政级别区域信息对应的学校名称列表;基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及输出所述匹配的学校名称。
【技术特征摘要】
1.一种K12阶段重复学校识别方法,其特征在于,包括如下步骤:接收待查询的学校信息以及行政级别区域信息;从数据库中获取与所述行政级别区域信息对应的学校名称列表;基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及输出所述匹配的学校名称。2.根据权利要求1所述的K12阶段重复学校识别方法,其特征在于,所述基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称具体包括:将所述学校信息与所述学校名称列表中的学校名称进行查重匹配,判断是否存在与所述学校信息一致的学校名称;若存在,则将所述学校名称标记为与所述学校信息匹配的学校名称;若不存在,计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度;根据所述文本相似度确定与所述学校信息匹配的学校名称。3.根据权利要求1所述的K12阶段重复学校识别方法,其特征在于,所述行政级别区域信息为区或者县的信息。4.根据权利要求2所述的K12阶段重复学校识别方法,其特征在于,所述计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度,具体包括:获取学校信息与待匹配的学校名称;提取所述学校信息以及待匹配的学校名称的文本特征;将提取的所述文本特征输入二分类模型,以根据所述二分类模型的输出结果获取所述学校信息与所述待匹配的学校名称的文本相似度。5.根据权利要求4所述的K12阶段重复学校识别方法,其特征在于,所述文本特征至少包括以下之一:所述学校信息以及待匹配的学校名称的编辑距离、所述学校信息以及待匹配的学校名称的编辑距离率、所述学校信息以及待匹配的学校名称的jaro距离、所述学校信息以及待匹配的学校名称的jarowinkler距离、所述学校信息以及待匹配...
【专利技术属性】
技术研发人员:李寅威,
申请(专利权)人:广州视源电子科技股份有限公司,广州视睿电子科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。