地址信息识别方法、信息推送方法以及信息展示方法技术

技术编号:37183777 阅读:25 留言:0更新日期:2023-04-20 22:48
本公开提供了一种地址信息识别方法,涉及人工智能技术领域,尤其涉及自然语言处理、机器学习、深度学习技术领域。具体实现方案为:根据文本中的地址词,生成候选地址链列表,其中,候选地址链列表中的每个候选地址链包括多个层级的地址节点;针对每个候选地址链,根据该候选地址链与文本之间的关系,确定候选地址链的特征序列;以及根据特征序列,从候选地址链列表中确定目标地址链。本公开还提供了一种信息推送方法、信息展示方法、装置、电子设备和存储介质。储介质。储介质。

【技术实现步骤摘要】
地址信息识别方法、信息推送方法以及信息展示方法


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、机器学习、深度学习技术,可应用在智慧城市、智慧政务和舆情分析场景下。更具体地,本公开提供了一种地址信息识别方法、信息推送方法、信息展示方法、装置、电子设备和存储介质。

技术介绍

[0002]互联网上每天产生大量的数据,基于事件相关的数据进行舆情分析,识别事件的地址信息,能够精确的为不同地区推送地区舆情内容。

技术实现思路

[0003]本公开提供了一种地址信息识别方法、信息推送方法、信息展示方法、装置、电子设备和存储介质。
[0004]根据第一方面,提供了一种地址信息识别方法,该方法包括:根据文本中的地址词,生成候选地址链列表,其中,候选地址链列表中的每个候选地址链包括多个层级的地址节点;针对每个候选地址链,根据该候选地址链与文本之间的关系,确定候选地址链的特征序列;以及根据特征序列,从候选地址链列表中确定目标地址链。
[0005]根据第二方面,提供了一种信息推送方法,该方法包括:获取根据上述地址信息识别方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址信息识别方法,包括:根据文本中的地址词,生成候选地址链列表,其中,所述候选地址链列表中的每个候选地址链包括多个层级的地址节点;针对每个候选地址链,根据该候选地址链与所述文本之间的关系,确定所述候选地址链的特征序列;以及根据所述特征序列,从所述候选地址链列表中确定目标地址链。2.根据权利要求1所述的方法,其中,所述地址词包括多个地址词;所述根据文本中的地址词,生成候选地址链列表包括:针对每个地址词,将所述地址词转换为标准地址节点,从地址库中召回包含所述标准地址节点的至少一个初始地址链,并对所述至少一个初始地址链进行消歧,得到与所述地址词对应的候选地址链;以及将与所述多个地址词各自对应的多个候选地址链中具有包含关系的候选地址链进行合并,得到所述候选地址链列表。3.根据权利要求2所述的方法,其中,所述地址库包括标准地址库和细粒度地址库,所述标准地址库中的标准地址链的层级包括省级、市级、区县级和乡镇级;所述细粒度地址库中的细粒度地址链的层级包括路级和兴趣点POI级;所述从地址库中召回包含所述标准地址节点的至少一个初始地址链包括:从所述标准地址库中确定包含所述标准地址节点的至少一个标准地址链,作为所述初始地址链;以及/或者从所述细粒度地址库中确定包含所述标准地址节点的至少一个细粒度地址链,作为所述初始地址链。4.根据权利要求3所述的方法,还包括构建细粒度地址库的步骤,包括:根据目标区域的经纬度边界,确定所述目标区域的边界框,其中,所述目标区域的级别为市级、区县级和乡镇级中的之一;将所述边界框内的区域划分为多个网格;以及对所述多个网格各自的经纬度进行逆地理位置编码,得到所述多个网格各自的细粒度地址链,作为所述目标区域的细粒度地址链集合;以及将所述目标区域的细粒度地址链集合存储到所述细粒度地址库中。5.根据权利要求2至4中任一项所述的方法,其中,所述对所述至少一个初始地址链进行消歧,得到与所述地址词对应的候选地址链包括:针对每个初始地址链,确定该初始地址链与所述文本之间的关联特征;以及根据所述关联特征,从所述至少一个初始地址链中去除有歧义的初始地址链,得到与所述地址词对应的候选地址链。6.根据权利要求5所述的方法,其中,所述针对每个初始地址链,确定该初始地址链与所述文本之间的关联特征包括:针对每个初始地址链,确定该初始地址链中被所述文本中的地址词命中的节点的数量,作为第一关联特征;确定所述多个初始地址链的所有节点中,与该初始地址链中的末节点具有相同父节点的目标节点数量,作为第二关联特征;以及根据该初始地址链中被所述文本中的地址词命中的节点的层级确定该初始地址链的
评估值,作为第三关联特征;根据该初始地址链与所述文本之间的相似度,确定所述初始地址链的第四关联特征。7.根据权利要求1至6中任一项所述的方法,还包括:对所述文本进行分词,得到多个分词单元;确定所述多个分词单元各自的词性,所述词性包括名词、副词和地址实体;以及确定词性为地址实体的分词单元作为所述地址词。8.根据权利要求2至7中任一项所述的方法,其中,所述将所述地址词转换为标准地址节点包括:从地址别称和全称映射表中,确定所述地址词的全称,作为所述地址词的标准地址节点。9.根据权利要求1至8中任一项所述的方法,其中,所述文本包括标题和正文;所述针对每个候选地址链,根据该候选地址链与所述文本之间的关系,确定所述候选地址链的特征序列包括:根据所述候选地址链中的节点在所述文本中出现的频次,确定频次特征;根据所述候选地址链中的节点在所述文本中首次出现的位置,确定位置特征;根据所述候选地址链中末节点的级别,确定级别特征;根据所述标题是否包含地址词,确定第一标题特征;根据所述候选地址链中的节点是否出现在标题中,确定第二标题特征;根据所述标题包含的地址词与所述候选地址链中的节点之间的关系,确定第三标题特征;根据所述正文中首次出现所述候选地址链中节点的句子的索引,确定索引特征;根据所述文本中出现的所述候选地址链中的节点的重要程度,确定重要性特征;以及将所述频次特征、位置特征、级别特征、第一标题特征、第二标题特征、第三标题特征、索引特征和重要性特征确定为所述候选地址链的特征序列。10.根据权利要求1至9中任一项所述的方法,其中,所述根据所述特征序列,从所述候选地址链列表中确定目标地址链包括:使用机器学习模型基于所述特征序列对所述候选地址链列表中的候选地址链进行两两排序,得到至少一组排序关系;以及根据所述至少一组排序关系,确定所述目标地址链。11.一种信息推送方法,包括:获取根据权利要求1至10中任一项所述的方法得到的目标地址链,作为事件发生地;以及根据所述目标地址链推送所述事件的信息。12.一种信息展示方法,包括:接收查询请求,所述查询请求包括待查询事件的地址信息;根据所述待查询事件的地址信息,确定目标事件,所述目标事件的目标地址链包含所述待查询事件的地址信息,其中,所述目标地址链是根据权利要求1至10中任一项所述的方法得到的;根据所述目标地址链展示所述目标事件。
13.一种地址信息识别装置,包括:生成模块,用于根据文本中的地址词,生成候选地址链列表,其中,所述候选地址链列表中的每个候选地址链包括多个层级的地址节点;第一确定模块,用于针对每个候选地址链,根据该候选地址链与所述文本之间的关系,确定所述候选地址链的特征序列;以及第二确定模块,用于根据所述特征序列,从所述候选地址链列表中确定目标...

【专利技术属性】
技术研发人员:李耀松龚建齐晓辉陈程潘旭徐思琪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1