基于知识图谱的地址质量确定方法技术

技术编号:39569014 阅读:13 留言:0更新日期:2023-12-03 19:19
本申请公开了一种基于知识图谱的地址质量确定方法

【技术实现步骤摘要】
基于知识图谱的地址质量确定方法、装置及存储介质


[0001]本申请涉及计算机
,尤其涉及一种基于知识图谱的地址质量确定方法

装置及存储介质


技术介绍

[0002]居住地址在我们生活中非常重要,比如快递配送员可以根据用户提供的居住地址准确的找到用户的位置,以对用户实现取送快递的服务

还比如医护人员可以根据用户提供的地址信息,准确快速的寻找到用户的位置,进行救助

[0003]然而,对用户要求提供的地址务必非常详细,才得以根据地址准确的确定位置

因此,对于用户提供的地址进行分析,确定地址的质量类型是至关重要的


技术实现思路

[0004]有鉴于此,本申请提供一种基于知识图谱的地址质量确定方法

装置及存储介质,通过对待检测地址进行分析,高效的得到细粒度地址,根据细粒度地址与地址样本匹配的结果精确的确定待检测地址的质量类型

[0005]第一方面,本申请提供一种基于知识图谱的地址质量确定方法,包括:
[0006]获取预设的待检测地址;
[0007]将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址;
[0008]将所述细粒度地址和预设的地址样本进行匹配处理,得到地址匹配结果;
[0009]根据所述匹配结果确定所述待检测地址的质量类型;
[0010]其中,所述实体识别模型为对多个所述地址样本进行地址结构化解析训练得到的

[0011]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,所述实体识别模型至少包括:字典模块

预训练语言模型模块

正则匹配模块;
[0012]所述将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址,包括:
[0013]利用所述字典模块的后缀树字典结构对所述待检测地址进行结构解析,得到第一实体地址;
[0014]利用所述预训练语言模型模块和预设的地址知识图谱对所述待检测地址进行地址提取处理,得到第二实体地址;
[0015]利用所述正则匹配模块的规则引擎对所述待检测地址进行地址提取处理,得到第三实体地址;
[0016]对所述第一实体地址

所述第二实体地址和所述第三实体地址进行地址融合处理,得到所述细粒度地址

[0017]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,所述预训练
语言模型模块的地址提取模型包括输入层

编码层和输出层,所述利用所述预训练语言模型模块和预设的地址知识图谱对所述待检测地址进行地址提取处理,得到第二实体地址,包括:
[0018]利用所述输入层构建输入待检测地址的头实体

头实体类型

实体关系

尾实体和尾实体类型的表示序列;并将所述头实体

头实体类型

实体关系

尾实体和尾实体类型的表示序列拼接成输入序列;
[0019]利用所述编码层对所述输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;
[0020]利用所述输出层计算拼接后的语义特征的预测概率,并输出所述预测概率大于预设概率阈值的输出实体地址;
[0021]基于所述输出实体地址和所述知识图谱进行地址提取处理,得到所第二实体地址

[0022]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,所述对所述输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接,包括:
[0023]采用双向
Tansformer
编码器对所述输入序列进行编码,并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征进行拼接;
[0024]所述编码层还包括输入嵌入层

位置嵌入层,所述输入序列的生成步骤包括:
[0025]利用所述输入嵌入层将输入的待检测地址映射成输入向量;
[0026]利用所述位置嵌入层构建所述待检测地址的位置向量,并将所述输入向量和位置向量拼接在一起形成所述输入序列的输入表示

[0027]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,所述地址样本至少包括:第一地址样本

第二地址样本,其中所述第一地址样本的样本质量高于所述第二地址样本的样本质量;
[0028]所述地址匹配结果至少包括:第一地址匹配结果

第二地址匹配结果;
[0029]所述将所述细粒度地址和预设的地址样本进行匹配处理,得到地址匹配结果,包括:
[0030]在所述细粒度地址和所述第一地址样本相匹配的情况下,得到所述第一地址匹配结果;
[0031]在所述细粒度地址和所述第二地址样本相匹配的情况下,得到所述第二地址匹配结果

[0032]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,所述根据所述匹配结果确定所述待检测地址的质量类型,包括:
[0033]根据所述第一地址匹配结果,确定所述待检测地址的质量类型为第一质量类型;
[0034]根据所述第二地址匹配结果,确定所述待检测地址的质量类型为第二质量类型;
[0035]其中,所述第一质量类型对应的质量高于所述第二质量类型对应的质量

[0036]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,在所述根据所述第二地址匹配结果,确定所述待检测地址的质量类型为第二质量类型的步骤之后,所述方法还包括:
[0037]在判定所述待检测地址的质量类型为所述第二质量类型的情况下,获取与所述第二地址匹配结果对应的所述第二地址样本的样本类型;
[0038]根据所述第二地址样本的所述样本类型,确定所述待检测地址的质量类型为所述第二质量类型的质量缺陷原因

[0039]优选地,根据本申请提供的一种基于知识图谱的地址质量确定方法,在所述将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址的步骤之后,所述方法还包括:
[0040]判断所述细粒度地址的地址类型,在所述地址类型指示为机构类型的情况下,确定所述细粒度地址的质量类型为所述第一质量类型

[0041]第二方面,本申请还提供一种基于知识图谱的地址质量确定装置,包括:
[0042]获取模块,用于获取预设的待检测地址;
[0043]识别模块,用于将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址;
[0044]匹配模块,用于将所述细粒度地址和预设的地址样本进行匹配处理,得到地址匹配结果;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的地址质量确定方法,其特征在于,包括:获取预设的待检测地址;将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址;将所述细粒度地址和预设的地址样本进行匹配处理,得到地址匹配结果;根据所述匹配结果确定所述待检测地址的质量类型;其中,所述实体识别模型为对多个所述地址样本进行地址结构化解析训练得到的
。2.
根据权利要求1所述的基于知识图谱的地址质量确定方法,其特征在于,所述实体识别模型至少包括:字典模块

预训练语言模型模块

正则匹配模块;所述将所述待检测地址输入实体识别模型,输出与所述待检测地址对应的细粒度地址,包括:利用所述字典模块的后缀树字典结构对所述待检测地址进行结构解析,得到第一实体地址;利用所述预训练语言模型模块和预设的地址知识图谱对所述待检测地址进行地址提取处理,得到第二实体地址;利用所述正则匹配模块的规则引擎对所述待检测地址进行地址提取处理,得到第三实体地址;对所述第一实体地址

所述第二实体地址和所述第三实体地址进行地址融合处理,得到所述细粒度地址
。3.
根据权利要求2所述的基于知识图谱的地址质量确定方法,其特征在于,所述预训练语言模型模块的地址提取模型包括输入层

编码层和输出层;所述利用所述预训练语言模型模块和预设的地址知识图谱对所述待检测地址进行地址提取处理,得到第二实体地址,包括:利用所述输入层构建输入待检测地址的头实体

头实体类型

实体关系

尾实体和尾实体类型的表示序列;并将所述头实体

头实体类型

实体关系

尾实体和尾实体类型的表示序列拼接成输入序列;利用所述编码层对所述输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接;利用所述输出层计算拼接后的语义特征的预测概率,并输出所述预测概率大于预设概率阈值的输出实体地址;基于所述输出实体地址和所述知识图谱进行地址提取处理,得到所第二实体地址
。4.
根据权利要求3所述的基于知识图谱的地址质量确定方法,其特征在于,所述对所述输入序列进行编码,并提取编码后的输入序列不同层次的语义特征,并对不同层次的语义特征进行拼接,包括:采用双向
Tansformer
编码器对所述输入序列进行编码,并采用多头注意力机制对提取编码后的输入序列不同层次的语义特征进行拼接;所述编码层还包括输入嵌入层

位置嵌入层,所述输入序列的生成步骤包括:利用所述输入...

【专利技术属性】
技术研发人员:左珑孙能林刘丁王明
申请(专利权)人:海尔优家智能科技北京有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1