【技术实现步骤摘要】
基于预训练语言模型与文本特征融合的空间关系抽取方法
[0001]本专利技术属于自然语言处理与地理大数据挖掘领域,具体涉及一种基于预训练语言模型和文本特征融合的地理实体识别与空间关系抽取方法。
技术介绍
[0002]空间关系作为描述地理实体之间相互约束、相互作用、相互关联状态的信息,是人类进行空间位置描述时不可或缺的连接信息。人们的日常生活交流会频繁涉及关于空间位置的描述,这类描述通常以一对地理实体对象加之空间关系的形式出现,其中空间关系启发人们从已知地理实体推理出未知地理实体的空间位置,连接了人类思想的语义空间和现实世界的物理空间。文本是日常生活中最常见的沟通交流与信息交互方式之一,其中包含了丰富的位置描述信息和相应的空间关系信息,然而由于文本表述的灵活性和模糊性,难以正确地理解文本中描述的空间位置。为了更充分地理解空间位置描述,准确识别文本中地理实体和空间关系成了亟待解决的科学问题。
[0003]为了获取文本中的空间关系,一直以来研究人员借鉴自然语言处理的关系抽取方法,陆续提出基于规则模板、基于机器学习的关系抽取方 ...
【技术保护点】
【技术特征摘要】
1.基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于包括以下步骤:步骤1:对原始文本数据进行预处理,利用正则表达式去除文本中的无意义字符,确保文本中前后引号完整匹配,对处理后的文本数据逐字符分词,并在分词结果的开头和结尾处添加[CLS]和[SEP]标识符,若以批量形式输入文本数据,则需确保每条文本数据长度一致,长度较短的文本数据使用[PAD]标识符来填充;步骤2:将经过预处理的文本数据输入预训练语言模型,文本数据逐字符分词结果T={t1,t2,..,t
N
}被转化为稠密实数字向量Z={z1,z2,..,z
N
};步骤3:将步骤2得到的字向量分别输入两个由单层前馈神经网络构成的二分类器,预测字向量z
i
是否为地理实体或空间关系特征词的开头或结尾,两个二分类器的预测结果分别被记录在POS
start
和POS
end
索引集合中,并按照索引升序排序,POS
start
=GeLU(W
start
Z+b
start
),POS
end
=GeLU(W
end
Z+b
end
)基于字向量Z={z1,z2,..,z
N
}、POS
start
和POS
end
索引集合,按照就近原则选取一对开始和结束索引[i,j],并通过最大池化方法融合Z中z
i
到z
j
的字向量,生成字符跨度表示;步骤4:将步骤3中生成的字符跨度表示输入由单层前馈神经网络构建的实体识别器,预测该字符跨度表示的实体类型,S
[i
‑
j]
=Max([z
i
;z
i+1
;
…
;z
j
])Entity Class=softmax(W
entity
S
[i
‑
j]
+b
entity
)实体类型包括具体地理实体类型、空间关系特征词或实体类型包括具体地理实体类型、空间关系特征词或代表该字符跨度表示不属于任何地理实体或空间关系特征词类型;步骤5:依据文本中地理实体的预测结果,模型自动在源文本数据开始、结束位置前后添加地理实体标记,同时更新空间关系特征词在源文本数据中的开始与结束位置信息,地理实体标记添加完毕之后,新生成的文本数据输入到另一个预训练语言模型中,生成对应的文本字向量,模型通过平均池化方法融合开始与结束标记的字向量来表示地理实体,通过最大池化方法融合所属字向量来表示空间关系特征词;步骤6:模型以组合的形式来匹配地理实体,构成候选地理实体对集合,选取集合中任意一对地理实体,以及空间关系特征词所对应的字向量表示,并将上述字向量表示进行拼接处理;通过自注意力机制将拼接后的向量表示融合为文本特征向量;将文本特征向量输入到用于空间关系分类的前馈神经网络中,依据前馈神经网络输出的概率信息判定地理实体间的空间关系,S=concat(S
Entity
‑
sub
;S
Entity
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。