小区信息的处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37085642 阅读:12 留言:0更新日期:2023-03-29 20:00
本发明专利技术公开了一种小区信息的处理方法、装置、电子设备和存储介质,所述方法包括:将获取的小区信息拆分成多个不同粒度的关键词;所述多个不同粒度的关键词形成关键词集合;将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集;所述预设标准小区关键词集合是将标准小区信息拆分成不同粒度的标准小区关键词得到的;所述交集的数量小于或等于标准小区信息的个数;分别计算所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度;基于所述匹配度确定与所述小区信息表征的目标标准小区信息。本发明专利技术提供的技术方案,在一定程度上能够提高小区信息规范表示结果的准确性。表示结果的准确性。表示结果的准确性。

【技术实现步骤摘要】
小区信息的处理方法、装置、电子设备和存储介质


[0001]本专利技术涉及数据处理
,具体涉及一种小区信息的处理方法、装置、电子设备和存储介质。

技术介绍

[0002]目前在很多场景下都需要获取居民的个人信息,其中包括了居民的住址信息。但是,在登记居民个人居住地址的过程中,不同人对同一小区名称的表达方式不同,且包含大量的缩写、简写,不利于相关工作人员快速定位小区位置,因此,对居民所输入的小区名称进行规范化势在必行。现有技术中,主要采用自然语言处理的方法对居民表达的个人居住地址采用外部字典进行模糊匹配,从而实现对居民所输入的小区进行规范表示,然而由于地址的表达存在着缩写、简写,且外部字典对于地址名称的收录情况并不完善等,导致通过外部字典进行模糊匹配的方法得到的规范化结果的可靠性降低。

技术实现思路

[0003]有鉴于此,本专利技术实施方式提供了一种小区信息的处理方法、装置、电子设备和存储介质,在一定程度上能够提高小区信息规范表示结果的准确性。
[0004]本专利技术一方面提供了一种小区信息的处理方法,所述方法包括:将获取的小区信息拆分成多个不同粒度的关键词;所述多个不同粒度的关键词形成关键词集合;将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集;所述预设标准小区关键词集合是将标准小区信息拆分成不同粒度的标准小区关键词得到的;所述交集的数量小于或等于标准小区信息的个数;分别计算所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度;基于所述匹配度确定与所述小区信息表征的目标标准小区信息。
[0005]在一个实施方式中,分别计算所述交集中的关键词和所述标准小区信息的匹配度包括:遍历所述交集,基于所述交集中关键词长度和关键词的逆向标准小区信息频率计算各个关键词的匹配度得分;将所述各个关键词的匹配度进行累加,得到所述交集中各个关键词和所述交集对应的标准小区信息之间的累计匹配度;将所述累计匹配度除以所述关键词集合中关键词的数量得到所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度。
[0006]在一个实施方式中,基于所述交集中关键词长度和关键词的逆向标准小区信息频率计算各个关键词的匹配度得分包括:计算若干个标准小区信息个数与若干个标准小区信息中包括所述关键词的个数之间的比值,得到所述关键词的逆向关键词频率;对所述逆向关键词频率进行对数运算得到所述关键词的逆向标准小区信息频率;将所述逆向标准小区信息频率和所述关键词的长度进行乘积运算,得到所述关键词的匹配度。
[0007]在一个实施方式中,小区信息的处理方法还包括:将所述逆向标准小区信息频率、所述关键词的长度以及预设衰减系数进行乘积运算,得到所述关键词的匹配度。
[0008]在一个实施方式中,所述标准小区信息包括标准小区地址信息和标准小区名称信息,将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集包括:将所述关键词集合分别在若干个预设标准小区地址关键词集合中进行匹配,生成所述关键词集合和预设标准小区地址关键词集合的第一交集;所述预设标准小区地址关键词集合是将标准小区地址拆分成不同粒度的标准小区地址关键词得到的;将所述关键词集合分别在若干个预设标准小区名称关键词集合中进行匹配,生成所述关键词集合和预设标准小区名称关键词集合的第二交集;所述预设标准小区名称关键词集合是将标准小区名称拆分成不同粒度的标准小区名称关键词得到的;将所述第一交集和所述第二交集进行合并,得到所述交集。
[0009]在一个实施方式中,所述小区信息包括阿拉伯数字,小区信息的处理方法还包括:将所述小区信息中的阿拉伯数字部分按照顺序转换为汉字。
[0010]在一个实施方式中,基于所述匹配度确定与所述小区信息表征的目标标准小区信息包括:按照所述匹配度从高至低的顺序,顺次确定与所述匹配度对应的目标标准小区信息,直至目标标准小区信息的个数达到预设个数。
[0011]在一个实施方式中,基于所述匹配度确定与所述小区信息表征的目标标准小区信息包括:若所述匹配度大于预设阈值,则将与所述匹配度对应的标准小区信息确定为目标标准小区信息。
[0012]本专利技术另一方面还提供了一种小区信息的处理装置,所述小区信息的处理装置包括:关键词集合生成单元,用于将获取的小区信息拆分成多个不同粒度的关键词;所述多个不同粒度的关键词形成关键词集合;关键词匹配单元,用于将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集;所述预设标准小区关键词集合是将标准小区信息拆分成不同粒度的标准小区关键词得到的;所述交集的数量小于或等于标准小区信息的个数;匹配度计算单元,用于分别计算所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度;目标标准小区信息确定单元,用于基于所述匹配度确定与所述小区信息表征的目标标准小区信息。
[0013]本专利技术另一方面还提供了一种电子设备,所述电子设备装置包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的小区信息的处理方法。
[0014]本专利技术另一方面还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时,实现上述的小区信息的处理方法。
[0015]通过将居民输入的信息和标准小区信息均划分为多个不同的粒度的关键词集合,然后将居民输入的关键词和标准小区信息的关键词进行匹配得到两者的交集,再计算交集中的关键词的累计匹配度,最后依据匹配度确定居民输入的信息所表征的标准小区信息,在一定程度上提升了居民输入信息和标准小区信息匹配的准确性,从而减少了居民信息统计人员在统计居民居住地址时的工作效率。
附图说明
[0016]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0017]图1示出了本专利技术一个实施方式中小区信息的处理系统的场景示例;
[0018]图2示出了本专利技术一个实施方式中小区信息的处理方法的流程示意图;
[0019]图3示出了本专利技术一个实施方式小区信息的处理装置示意图;
[0020]图4示出了本专利技术一个实施方式中电子设备的结构示意图。
具体实施方式
[0021]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。
[0022]请参阅图1,本说明书实施方式提供一种小区信息的处理系统的应用场景示例。所述数据反馈系统可以包括居民客户端、服务器和用户客户端。用户可以是需要对居民信息进行调查、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小区信息的处理方法,其特征在于,所述方法包括:将获取的小区信息拆分成多个不同粒度的关键词;所述多个不同粒度的关键词形成关键词集合;将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集;所述预设标准小区关键词集合是将标准小区信息拆分成不同粒度的标准小区关键词得到的;所述交集的数量小于或等于标准小区信息的个数;分别计算所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度;基于所述匹配度确定与所述小区信息表征的目标标准小区信息。2.根据权利要求1所述的方法,其特征在于,分别计算所述交集中的关键词和所述标准小区信息的匹配度包括:遍历所述交集,基于所述交集中关键词长度和关键词的逆向标准小区信息频率计算各个关键词的匹配度得分;将所述各个关键词的匹配度进行累加,得到所述交集中各个关键词和所述交集对应的标准小区信息之间的累计匹配度;将所述累计匹配度除以所述关键词集合中关键词的数量得到所述交集中的各个关键词和与所述交集对应的标准小区信息之间的匹配度。3.根据权利要求2所述的方法,其特征在于,基于所述交集中关键词长度和关键词的逆向标准小区信息频率计算各个关键词的匹配度得分包括:计算若干个标准小区信息个数与若干个标准小区信息中包括所述关键词的个数之间的比值,得到所述关键词的逆向关键词频率;对所述逆向关键词频率进行对数运算得到所述关键词的逆向标准小区信息频率;将所述逆向标准小区信息频率和所述关键词的长度进行乘积运算,得到所述关键词的匹配度。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将所述逆向标准小区信息频率、所述关键词的长度以及预设衰减系数进行乘积运算,得到所述关键词的匹配度。5.根据权利要求1所述的方法,其特征在于,所述标准小区信息包括标准小区地址信息和标准小区名称信息,将所述关键词集合分别在若干个预设标准小区关键词集合中进行匹配,生成所述关键词集合和预设标准小区关键词集合的交集包括:将所述关键词集合分别在若干个预设标准小区地址关键词集合中进行匹配,生成所述关键词集合和预设标准小区地址关键词集合的第一交集;所述预设标准小区地址关...

【专利技术属性】
技术研发人员:马玉健韩晴
申请(专利权)人:北京易华录信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1