【技术实现步骤摘要】
一种基于兴趣点知识图谱预训练的地址匹配算法
本专利技术涉及知识图谱和自然语言处理领域,具体涉及一种基于兴趣点知识图谱预训练的地址匹配算法。
技术介绍
传统网络训练模型中自然语言处理任务需要大量的标注数据,这些数据的标注需要耗费大量的人力,然而即使获得了大量的标注数据,模型的训练也很容易陷入过拟合的困境,即缺少泛化能力。文本的语义匹配指的是判断两段自然语言是否表达了同样的意思,传统的词袋模型的问题在于无法很好地处理自然语言的歧义性,同样的意思存在多种称谓和表述,而相同的表述在不同的语境下又可能存在多种意思,经典的语义匹配模型有传统的基于词袋模型的TF-IDF,BM25算法,以及基于深度学习的DSSM、匹配金字塔(MatchPyramid)等模型。地址作为一种特定领域的自然语言,表述的是地理位置上某一地点的名称,现实生活中同一目的地的地址名称通常存在多种写法,通常是由于地址的不完整性、独特性和别名等多种原因造成。地址匹配的目的是判断两地址文本是否指向同一目的地,其本质上是一种文本语义匹配问题。由于地址的表述存在的 ...
【技术保护点】
1.一种基于兴趣点知识图谱预训练的地址匹配算法,其特征在于,包括:/n(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域,得到标注后的兴趣点地址;/n(2)将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;/n(3)将步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层;/n(4)将标注后的待预测的原始兴趣点地址输入步骤 ...
【技术特征摘要】
1.一种基于兴趣点知识图谱预训练的地址匹配算法,其特征在于,包括:
(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域,得到标注后的兴趣点地址;
(2)将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;
(3)将步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层;
(4)将标注后的待预测的原始兴趣点地址输入步骤(3)得到微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配。
2.根据权利要求1所述的基于兴趣点知识图谱预训练的地址匹配算法,其特征在于,步骤(1)中,所述的所述的行政区域依次为省、市、区、路、社区、镇、村、名称和其他,分别用Prov,City,District,Road,Community,Town,Village,Name,O表示。
3.根据权利要求1所述的基于兴趣点知识图谱预训练的地址匹配算法,其特征在于,步骤(2)中,所述的遮盖的行政区域的字数占兴趣点地址总字数的15%-25%。
4.根据权利要求1所述的基于兴趣点知识图谱预训练的地址匹配算法,其特征在于,步骤(2)中,所述的将遮盖后的兴趣点地址输入到语言模型中的具体过程为:
(2.1)将兴趣点地址文本输入到语言模型的向量编码层,经计算得到兴趣点地址中每个字符的向量表示;
所述的兴趣点地址文本为式(1)所示:
C={c0,c1,...,cn-1}(1)
其中,C为兴趣点地址文本;n为兴趣点地址文本的长;
所述的兴趣点地址中每个字符的向量表示为式(2)所示:
h0=CWe+Wp(2)
其中,h0为兴趣点地址中每个字符的向量表示;We为词表矩阵;Wp为位置向量矩阵;h0∈Rn×d为输入字符的向量表示;d为向量维度;
(2.2)将兴趣点地址中每个字符的向量表示作为transformer编码层的输入,得到兴趣点地址训练样本的特征向量;
所述的兴趣点地址训练样本的特征向量的计算公式为式(3)所示:
hl=transformer(hl),l∈[1,6](3)
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。