一种基于关键词提取的地址树构建方法技术

技术编号:36692827 阅读:18 留言:0更新日期:2023-02-27 20:01
本发明专利技术公开了一种基于关键词提取的地址树构建方法,首先对地址信息文本进行预处理,得到预处理文本,再计算预处理文本中每个词语的综合权重,然后根据每个词语的综合权重提取关键词,最后根据提取到的关键词构建地址树。本发明专利技术结合词语的TF

【技术实现步骤摘要】
一种基于关键词提取的地址树构建方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于关键词提取的地址树构建方法的设计。

技术介绍

[0002]随着智慧城市的普及与应用,地址信息作为其运行的基础支撑要素,其运用也越来越广泛,城市各行业的数据库中都保存着大量和地理位置有关的非空间数据,主要产生原因如下:
[0003]一是地址信息管理部门众多,且应用系统之间相互割裂,地址信息分散在公安、规划国土、住建、网格管理等多个部门。比如,公安部门负责管理门楼牌,规划国土部门负责管理建筑物、小区和道路,网格管理部门负责采集实有房屋信息。不同部门之间的地址信息资源相对独立,并没有进行关联整合。
[0004]二是各部门对地址的应用场景不一样,导致地址标准不统一。不同的地址信息管理部门遵循各自的行业标准,其地址格式和命名规范都不一致,缺乏统一的规范和标准,信息整合的难度较大,致使当前没有一个统一规范的地址库可用。此外,政府各职能部门的信息系统在采集地址时大多采用手工录入,地址的规范性和准确性得不到保证,给城市管理和社会治理带来诸多困难和不便。
[0005]由于地址信息复杂多样性,不同行业或部门都有自己不同的需求,以不同的形式采集、处理和传播空间信息,因此采集的地址数据的格式和质量有很大区别,存在输入拼写错误或者表达模糊、地址残缺等情况,进而导致使用时出现:(1)现实中无法找到该地址;(2)企业、个人在缴费、纳税时因地址错误造成损失;(3)城市治理、指挥过程中无法有效统一指挥协同联动。因此需要对地址信息中的关键词进行提取,构造精确的地址树。
[0006]现有的地址树构建方法中,TextRank算法为基于图的排序方法,利用共现窗口实现部分词语之间的关系构建,对后续关键词进行排序,直接从文本本身中提取关键词来构建地址树。该方法没有分析词语相邻权值转移的问题,会在构建地址树的时候出现混乱状态,进而造成构建的地址树不够精确。

技术实现思路

[0007]本专利技术的目的是为了解决现有的地址树构建方法不够精确的问题,提出了一种基于关键词提取的地址树构建方法。
[0008]本专利技术的技术方案为:一种基于关键词提取的地址树构建方法,包括以下步骤:
[0009]S1、对地址信息文本进行预处理,得到预处理文本。
[0010]S2、计算预处理文本中每个词语的综合权重。
[0011]S3、根据每个词语的综合权重提取关键词。
[0012]S4、根据提取到的关键词构建地址树。
[0013]进一步地,步骤S1包括以下分步骤:
[0014]S11、根据地址编码规范要求,通过枚举专用名词作为分词符号,对地址信息文本进行分词处理。
[0015]S12、根据分词结果和词语在句子中的位置对每个词语进行位置符号标记,得到预处理文本。
[0016]进一步地,步骤S2包括以下分步骤:
[0017]S21、计算每个词语在预处理文本中的词频:
[0018][0019]其中TF
i
表示第i个词语在预处理文本中的词频,N
i
表示第i个词语在预处理文本中出现的次数,N表示预处理文本中的词语总数。
[0020]S22、计算每个词语在预处理文本中的逆向文件频率:
[0021][0022]其中IDF
i
表示第i个词语在预处理文本中的逆向文件频率,M表示预处理文本中的文档总数,M
i
表示包含第i个词语的文档数目。
[0023]S23、根据每个词语在预处理文本中的词频和逆向文件频率计算得到该词语的TF

IDF权重:
[0024]W
TF

IDF
(i)=TF
i
*IDF
i
[0025]其中W
TF

IDF
(i)表示第i个词语的TF

IDF权重。
[0026]S24、计算预处理文本中每个词语的平均信息熵:
[0027][0028]其中W
Entropy
(i)表示第i个词语的平均信息熵,f
ik
表示第i个词语在第k个文档中出现的频次,n
i
表示第i个词语在整个预处理文本中出现的频次。
[0029]S25、根据每个词语的TF

IDF权重和平均信息熵计算得到该词语的综合权重:
[0030][0031]其中W
Weight
(i)表示第i个词语的综合权重。
[0032]进一步地,步骤S3包括以下分步骤:
[0033]S31、将预处理文本中每个词语作为一个图谱节点,计算图谱中的节点转移概率:
[0034][0035]其中W(V
j
,V
i
)表示图谱中第j个节点V
j
到第i个节点V
i
的转移概率,W
Weight
(V
i
)表示第i个节点V
i
的综合权重,W
Weight
(V
k
)表示第k个节点V
k
的综合权重,Out(V
j
)表示第j个节点V
j
的出度集合,即第j个节点V
j
指向的所有节点的集合。
[0036]S32、根据图谱中的节点转移概率计算得到图谱中每个节点的重要性权重:
[0037][0038]其中WS(V
i
)表示图谱中第i个节点V
i
的重要性权重,d表示阻尼系数,WS(V
j
)表示图谱中第j个节点V
j
的重要性权重,In(V
j
)表示第j个节点V
j
的入度集合,即指向第j个节点V
j
的所有节点的集合。
[0039]S33、将重要性权重大于预设阈值的节点对应的词语作为关键词输出。
[0040]进一步地,步骤S4包括以下分步骤:
[0041]S41、计算关键词的偏移量:
[0042][0043][0044]其中W
i,j
表示第i个关键词c
i
相对于第j个关键词c
j
的偏移量,t
i
表示第i个关键词c
i
所在文档,t
j
表示第j个关键词c
j
所在文档,dist(c
i
,c
j
)表示第i个关键词c
i
和第j个关键词c
j
在预处理文本中的深度距离之和,p
i
表示第i个关键词c
i
所在位置,p
j
表示第j个关键词c
j
所在位置,pos(c
i...

【技术保护点】

【技术特征摘要】
1.一种基于关键词提取的地址树构建方法,其特征在于,包括以下步骤:S1、对地址信息文本进行预处理,得到预处理文本;S2、计算预处理文本中每个词语的综合权重;S3、根据每个词语的综合权重提取关键词;S4、根据提取到的关键词构建地址树。2.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S1包括以下分步骤:S11、根据地址编码规范要求,通过枚举专用名词作为分词符号,对地址信息文本进行分词处理;S12、根据分词结果和词语在句子中的位置对每个词语进行位置符号标记,得到预处理文本。3.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S2包括以下分步骤:S21、计算每个词语在预处理文本中的词频:其中TF
i
表示第i个词语在预处理文本中的词频,N
i
表示第i个词语在预处理文本中出现的次数,N表示预处理文本中的词语总数;S22、计算每个词语在预处理文本中的逆向文件频率:其中IDF
i
表示第i个词语在预处理文本中的逆向文件频率,M表示预处理文本中的文档总数,M
i
表示包含第i个词语的文档数目;S23、根据每个词语在预处理文本中的词频和逆向文件频率计算得到该词语的TF

IDF权重:W
TF

IDF
(i)=TF
i
*IDF
i
其中W
TF

IDF
(i)表示第i个词语的TF

IDF权重;S24、计算预处理文本中每个词语的平均信息熵:其中W
Entropy
(i)表示第i个词语的平均信息熵,f
ik
表示第i个词语在第k个文档中出现的频次,n
i
表示第i个词语在整个预处理文本中出现的频次;S25、根据每个词语的TF

IDF权重和平均信息熵计算得到该词语的综合权重:其中W
Weight
(i)表示第i个词语的综合权重。4.根据权利要求1所述的地址树构建方法,其特征在于,所述步骤S3包括以下分步骤:S31、将预处理文本中每个词语作为一个图谱节点,计算图谱中的节点转移概率:
其中W(V
j
,V
i
)表示图谱中第j个节点V
j

【专利技术属性】
技术研发人员:唐浩天蔡晓燕赵勇蔡小林周勇黄祥芝王少恒
申请(专利权)人:四川易利数字城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1