【技术实现步骤摘要】
地址图谱构建方法、装置、计算机设备及可读存储介质
[0001]本专利技术涉及知识图谱领域,尤其涉及一种地址图谱构建方法、装置、计算机设备及可读存储介质。
技术介绍
[0002]在安防领域中,往往需要标准化的层级地址,以便于安防工作的顺利开展。如公安的实有地址中需要标准化的层级地址进行网格化管理、安防摄像头安装时配置的标准化地址等。
[0003]目前大多情况下,使用的地址是通过人工构建的不准确的地址库,若依托该不准确的地址库进行工作的开展,不仅耗时耗力,而且往往事倍功半。
[0004]当前使用的地址图谱构建方法中,纯粹基于分词和词性识别的地址切分,较难构建统一化的地址层级关系,而且,分词及词性识别的模型更新速度往往跟不上实际新地址的生成速度。
技术实现思路
[0005]为了解决上述技术问题,本申请实施例提供了一种地址图谱构建方法、装置、计算机设备及可读存储介质,具体方案如下:
[0006]第一方面,本申请实施例提供了一种地址图谱构建方法,所述方法包括:
[0007]从第一地址数据 ...
【技术保护点】
【技术特征摘要】
1.一种地址图谱构建方法,其特征在于,所述方法包括:从第一地址数据库中,根据预设的标准地址层级获取对应每一地址层级的地址数据集,其中预设的标准地址层级大于四级地址层级;根据预设规则遍历每一地址层级中的地址数据集,以生成相应的初始单字树形图谱,所述初始单字树形图谱包括对应每一地址层级的多个单字节点;遍历所述初始单字树形图谱中前四级地址层级中的所有单字节点,计算对应每一地址层级的差异参数以及每一地址层级中第一个单字节点的数量,其中,所述差异参数为单字节点最大占比值与单字节点最小占比值之差;根据前四级地址层级对应的差异参数和前四级地址层级对应的第一个单字节点的数量,对所述初始单字树形图谱中第四级地址层级之后的全部地址层级的单字节点进行合并,以生成目标地址图谱。2.根据权利要求1所述的方法,其特征在于,所述根据预设规则遍历每一地址层级中的地址数据集,以生成相应的初始单字树形结构的步骤,包括:遍历所述地址数据集中的所有汉字,若当前汉字不包括父节点,则计算当前汉字在所属地址层级的地址数据集中的数量占比;将所述数量占比大于预设占比阈值的当前汉字作为根节点的子节点;以所述根节点的所有子节点为基础,根据预设的子节点占比算法以及各地址层级对应的地址数据集生成相应的初始单字树形结构。3.根据权利要求1所述的方法,其特征在于,所述遍历所述初始单字树形图谱中前四级地址层级中的所有单字节点,计算对应每一地址层级的差异参数的步骤,包括:遍历所述初始单字树形图谱中前四级地址层级中的所有单字节点;遍历第二数据库中的标准地址数据,所述标准地址数据包括省市区县四级地址层级的标准数据;计算每一单字节点在对应地址层级的标准地址数据中的数量占比;计算对应地址层级中单字节点最大占比值和单字节点最小占比值之差,以得到对应地址层级的差异参数。4.根据权利要求3所述的方法,其特征在于,所述根据前四级地址层级对应的差异参数和前四级地址层级对应的第一个单字节点的数量,对所述初始单字树形图谱中第四级地址层级之后的全部地址层级的单字节点进行合并的步骤,包括:根据预设的线性拟合函数处理前四级地址层级的差异参数,以获得所述预设的标准地址层级对应的地址层级的目标差异参数;根据预设的线性拟合函数处理前四级地址层级对应的第一个单字节点的数量,以获得所述预设的标准地址层级对应的地址层级的第一个单字节点的目标...
【专利技术属性】
技术研发人员:姚佳,杨超,
申请(专利权)人:贵阳天依惠禾大数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。