一种制造技术

技术编号:39489335 阅读:8 留言:0更新日期:2023-11-24 11:11
本说明书实施例公开了一种

【技术实现步骤摘要】
一种POI名称的提取方法、装置、设备及介质


[0001]本说明书涉及计算机
,尤其涉及一种
POI
名称的提取方法

装置

设备及介质


技术介绍

[0002]POI(Point ofInterest)
指的是兴趣点,是地理信息系统中的一个术语,在进行地理信息科学领域是一个重要的概念,可以包含小区

店铺

学校

医院等各类具有一定标志性的地理位置单元

是对相关地理信息进行统计汇总和分析的基础,对定位导航

区域分析等领域的研究具有重要意义
。POI
的具体名称信息通常难以获取

一方面由于地理信息兴趣点没有固定的维护途径,在实际需要使用时无法找到已有的
POI
名录或相关数据库;同时
POI
信息的变化速度也比较快,例如小型店铺的营业状态容易发生变化,因此难以及时统计清楚

此外,统一实际地点的名称可能会有多种,这也给
POI
名称获取增加了难度

所以,
POI
名称的及时获取,是提高
POI
应用场景使用效果的重要因素

[0003]在实际对于
POI
的使用时,往往会以大批量语料为基础进行使用

然而以大量批量语料为基础时,传统的分词方法通常基于词典和正逆向最大匹配算法,将词典中已有的词语在语料信息中匹配出来,但是对于
POI
名称类型的信息,并没有固定的词典,由于
POI
名称也未必遵循已有的固定词语,因此使用传统的分词方法并不能将语料信息中的
POI
名称识别提取出来,且获取的
POI
名称与语料信息的匹配度较低


技术实现思路

[0004]为了解决上述技术问题,本说明书一个或多个实施例提供了一种基于
POI
名称的提取方法

装置

设备及介质

[0005]本说明书一个或多个实施例采用下述技术方案:
[0006]本说明书一个或多个实施例提供一种
POI
名称的提取方法,其特征在于,所述方法包括:
[0007]收集批量语料信息构建文本信息库,以对所述文本信息库中各语料信息进行分词编码,获得各语料信息所对应的分词编码;
[0008]计算各所述分词编码的互信息与临字丰富度,以基于所述互信息与临字丰富度获取各所述语料信息中的待选
POI
名称;
[0009]将所述待选
POI
名称分别输入第一判别通道与第二判别通道,获取第一判别结果与第二判别结果;其中,所述第一判别通道为机器学习分类模通道,所述第二判别通道为人工经验通道;
[0010]汇总所述第一判别结果与所述第二判别结果,筛选所述待选
POI
名称中的最终
POI
名称

[0011]可选地,在本说明书一个或多个实施例中,收集批量语料信息构建文本信息库,以对所述文本信息库中各语料信息进行分词编码,获得各语料信息所对应的分词编码,具体
包括:
[0012]获取当前应用场景所对应的语料信息获取接口,以基于各所述语料信息获取接口获取预置采集周期内的语料信息;
[0013]将所述语料信息作文文本信息,根据各所述文本信息构建文本信息库;
[0014]确定与所述文本信息库的当前应用场景相对应的词库,以基于所述相对应的词库对各所述语料信息进行分词获得分词结果;
[0015]获取分词结果中各语料信息所对应的分词词语,获取所述分词词语与所述相对应的词库的匹配结果,以基于所述匹配结果对各所述分词词语分别进行词编码或字编码,生成各所述语料信息的分词编码

[0016]可选地,在本说明书一个或多个实施例中,获取所述分词编码的预设最大分词编码长度与预设最小分词编码长度,以基于所述预设最大分词编码长度与所述预设最小分词编码长度,确定各所述语料信息的分词编码遍历范围;
[0017]在所述分词编码遍历范围内依次计算各所述分词编码的互信息与临字丰富度;
[0018]对比所述分词编码的互信息与预设互信息阈值,以及所述分词编码的临字丰富度与预设临字丰富度阈值,提取所述语料信息中的待选
POI
名称

[0019]可选地,在本说明书一个或多个实施例中,将所述待选
POI
名称分别输入第一判别通道与第二判别通道,获取第一判别结果与第二判别结果,具体包括:
[0020]将所述待选
POI
名称输入第一判别通道,以基于所述第一判别通道将所述待选
POI
名称传输到对应的客户端,并接收所述对应的客户端对所述待选
POI
名称的第一判别结果;
[0021]基于预设分类模型结构构建机器学习分类模型,以对所述机器学习分类模型进行训练获得符合要求的模型作为第二判别通道;
[0022]将所述待选
POI
名称输入所述第二判别通道,以输出第二判别结果

[0023]可选地,在本说明书一个或多个实施例中,将所述待选
POI
名称输入第一判别通道,以基于所述第一判别通道将所述待选
POI
名称传输到对应的客户端之前,所述方法还包括:
[0024]基于所述批量语料信息所对应的当前应用场景,确定与所述当前应用场景相对应的待选客户端;
[0025]确定各所述待选客户端的当前工作状态,以确定所述待选客户端的空闲客户端;
[0026]基于各空闲客户端的历史判别数量以及历史判别评价,确定各所述空闲客户端所对应的处理权重,以基于所述处理权重确定与最优空闲客户端作为与所述待选
POI
名称相对应的客户端

[0027]可选地,在本说明书一个或多个实施例中,所述基于预设分类模型结构构建机器学习分类模型,以对所述机器学习分类模型进行训练获得符合要求的模型作为第二判别通道,具体包括:
[0028]确定所述机器学习分类模型的词嵌入结构

特征提取结构与分类模型,以基于所述词嵌入结构

特征提取结构与分类模型构建所述机器学习分类模型;
[0029]收集
POI
名称作为正样本,并随机抽取所述对应的词库中预设长度的字符串作为负样本,以基于所述正样本与所述负样本确定所述机器学习分类模型的训练数据集;
[0030]基于所述训练数据集对所述机器学习分类模型进行迭代训练,若确定所述迭代训
练的迭代次数等于预设迭代阈值,或确定所述机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种
POI
名称的提取方法,其特征在于,所述方法包括:收集批量语料信息构建文本信息库,以对所述文本信息库中各语料信息进行分词编码,获得各语料信息所对应的分词编码;计算各所述分词编码的互信息与临字丰富度,以基于所述互信息与临字丰富度获取各所述语料信息中的待选
POI
名称;将所述待选
POI
名称分别输入第一判别通道与第二判别通道,获取第一判别结果与第二判别结果;其中,所述第一判别通道为机器学习分类模通道,所述第二判别通道为人工经验通道;汇总所述第一判别结果与所述第二判别结果,筛选所述待选
POI
名称中的最终
POI
名称
。2.
根据权利要求1所述的一种
POI
名称的提取方法,其特征在于,收集批量语料信息构建文本信息库,以对所述文本信息库中各语料信息进行分词编码,获得各语料信息所对应的分词编码,具体包括:获取当前应用场景所对应的语料信息获取接口,以基于各所述语料信息获取接口获取预置采集周期内的语料信息;将所述语料信息作文文本信息,根据各所述文本信息构建文本信息库;确定与所述文本信息库的当前应用场景相对应的词库,以基于所述相对应的词库对各所述语料信息进行分词获得分词结果;获取分词结果中各语料信息所对应的分词词语,获取所述分词词语与所述相对应的词库的匹配结果,以基于所述匹配结果对各所述分词词语分别进行词编码或字编码,生成各所述语料信息的分词编码
。3.
根据权利要求2所述的一种
POI
名称的提取方法,其特征在于,所述计算各所述分词编码的互信息与临字丰富度,以基于所述互信息与临字丰富度获取各所述语料信息中的待选
POI
名称,具体包括:获取所述分词编码的预设最大分词编码长度与预设最小分词编码长度,以基于所述预设最大分词编码长度与所述预设最小分词编码长度,确定各所述语料信息的分词编码遍历范围;在所述分词编码遍历范围内依次计算各所述分词编码的互信息与临字丰富度;对比所述分词编码的互信息与预设互信息阈值,以及所述分词编码的临字丰富度与预设临字丰富度阈值,提取所述语料信息中的待选
POI
名称
。4.
根据权利要求2所述的一种
POI
名称的提取方法,其特征在于,将所述待选
POI
名称分别输入第一判别通道与第二判别通道,获取第一判别结果与第二判别结果,具体包括:将所述待选
POI
名称输入第一判别通道,以基于所述第一判别通道将所述待选
POI
名称传输到对应的客户端,并接收所述对应的客户端对所述待选
POI
名称的第一判别结果;基于预设分类模型结构构建机器学习分类模型,以对所述机器学习分类模型进行训练获得符合要求的模型作为第二判别通道;将所述待选
POI
名称输入所述第二判别通道,以输出第二判别结果
。5.
根据权利要求4所述的一种
POI
名称的提取方法,其特征在于,将所述待选
POI
名称输入第一判别通道,以基于所述第一判别通道将所述待选
POI
名称传输到对应的客户端之前,
所述方法还包括:基于所述批量语料信息所对应的当前应用场景,确定与所述当前应用场景相对应的待选客户端;确定各所述待选客户端的当前工作状态,以确定所述待选客户端的空闲客户端;基于各空闲客户端的历史判别数量以及历史判别评价,确定各所述空闲客户端所对应的处理权重,以基于所述处理权重确定与最优空闲客户端作为与所述待选
POI
名称相对应的客户端
。6.
根据权利要求4所述的一种
POI
名称的提取方法,其特征在于,所述基于预设分类模型结构构建机器学习分类模型,以对所述机器学习分类模型进行训练获得...

【专利技术属性】
技术研发人员:孙永超傅玉鑫赵海兴
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1