【技术实现步骤摘要】
一种基于关键词提取的地址树构建方法
[0001]本专利技术属于自然语言处理
,具体涉及一种基于关键词提取的地址树构建方法的设计。
技术介绍
[0002]随着智慧城市的普及与应用,地址信息作为其运行的基础支撑要素,其运用也越来越广泛,城市各行业的数据库中都保存着大量和地理位置有关的非空间数据,主要产生原因如下:
[0003]一是地址信息管理部门众多,且应用系统之间相互割裂,地址信息分散在公安、规划国土、住建、网格管理等多个部门。比如,公安部门负责管理门楼牌,规划国土部门负责管理建筑物、小区和道路,网格管理部门负责采集实有房屋信息。不同部门之间的地址信息资源相对独立,并没有进行关联整合。
[0004]二是各部门对地址的应用场景不一样,导致地址标准不统一。不同的地址信息管理部门遵循各自的行业标准,其地址格式和命名规范都不一致,缺乏统一的规范和标准,信息整合的难度较大,致使当前没有一个统一规范的地址库可用。此外,政府各职能部门的信息系统在采集地址时大多采用手工录入,地址的规范性和准确性得不到保证,给城市管理和社会治理带来诸多困难和不便。
[0005]由于地址信息复杂多样性,不同行业或部门都有自己不同的需求,以不同的形式采集、处理和传播空间信息,因此采集的地址数据的格式和质量有很大区别,存在输入拼写错误或者表达模糊、地址残缺等情况,进而导致使用时出现:(1)现实中无法找到该地址;(2)企业、个人在缴费、纳税时因地址错误造成损失;(3)城市治理、指挥过程中无法有效统一指挥协同联动。因此需要对地址信息
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于关键词提取的地址树构建方法,其特征在于,包括以下步骤:S1、对地址信息文本进行预处理,得到预处理文本;S2、计算预处理文本中每个词语的综合权重;S3、根据每个词语的综合权重提取关键词;S4、根据提取到的关键词构建地址树。2.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S1包括以下分步骤:S11、根据地址编码规范要求,通过枚举专用名词作为分词符号,对地址信息文本进行分词处理;S12、根据分词结果和词语在句子中的位置对每个词语进行位置符号标记,得到预处理文本。3.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S2包括以下分步骤:S21、计算每个词语在预处理文本中的词频:其中TF
i
表示第i个词语在预处理文本中的词频,N
i
表示第i个词语在预处理文本中出现的次数,N表示预处理文本中的词语总数;S22、计算每个词语在预处理文本中的逆向文件频率:其中IDF
i
表示第i个词语在预处理文本中的逆向文件频率,M表示预处理文本中的文档总数,M
i
表示包含第i个词语的文档数目;S23、根据每个词语在预处理文本中的词频和逆向文件频率计算得到该词语的TF
‑
IDF权重:W
TF
‑
IDF
(i)=TF
i
*IDF
i
其中W
TF
‑
IDF
(i)表示第i个词语的TF
‑
IDF权重;S24、计算预处理文本中每个词语的平均信息熵:其中W
Entropy
(i)表示第i个词语的平均信息熵,f
ik
表示第i个词语在第k个文档中出现的频次,n
i
表示第i个词语在整个预处理文本中出现的频次;S25、根据每个词语的TF
‑
IDF权重和平均信息熵计算得到该词语的综合权重:其中W
Weight
(i)表示第i个词语的综合权重。4.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S3包括以下分步骤:S31、将预处理文本中每个词语作为一个图谱节点,计算图谱中的节点转移概率:
其中W(V
j
,V
i
)表示图谱中第j个节点V
j
技术研发人员:唐浩天,蔡晓燕,赵勇,蔡小林,周勇,黄祥芝,王少恒,
申请(专利权)人:四川易利数字城市科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。