【技术实现步骤摘要】
一种基于prompt打分的实体链接方法
[0001]本专利技术涉及一种基于
prompt
打分的实体链接方法,属于语言处理
。
技术介绍
[0002]实体链接方法主要采用两阶段的处理策略
。Mihalcea
等人首先提出了这种策略,通过候选实体发现和排序两个关键阶段,有效地兼顾了实体链接的效率和质量
。
候选实体发现阶段需要构建候选实体列表,其中包括基于文本相似度的方法,如
Gangemi A
等人
、Zhang Y
等人和
S.Zwicklbauer
等人的工作
。
他们通过匹配文本中的各种提及词,从而建立候选实体列表
。
在此基础上,有方法是利用别名展开,以克服由于缩写等引发的错误
。
例如
M.Pershina
等人运用共指消解技术将给定的提及词扩展为文本中最长的提及词,再与知识库中的实体进行匹配,形成候选实体
。
此外,还有基于 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
prompt
打分的实体链接方法,其特征在于,包括:将提及词进行数据清洗,消除词汇缩写,以及拼写错误;将知识库中实体
E
与文本中的提及词
M
向量化,并进行内积计算并获取分数最高的前
20
个知识库中实体作为候选实体;再将候选实体与提及词进行
prompt
句式的构建,并拼接上下文信息作为模型输入送入到
Bert
模型中经过注意力机制后,获得输入序列中
token
最终的向量表示
h
i
∈R
h
,其中包含了该
token
与其他位置
token
的相互作用信息;将位置标签
<cls>
处的向量
h
i
∈R
h
送入分类器模型获取
prompt
的正负概率,并获取预测为正的概率
p
作为概率分数最后将和通过调节超参
α
的大小进行加和计算得到最终的排序分数
S
m,e
,
将分数
S
m,e
最高的实体作为最终的链接结果
。2.
根据权利要求1所述的基于
prompt
打分的实体链接方法,其特征在于:所述基于
prompt
打分的实体链接方法的具体步骤如下:
Step1、
进行了拼写检查,解决提及词中的拼写错误问题;同时,使用了
Ab3P
缩写解析;对于复合提及词,将复合提及词拆分为单独的提及词;
Step2、
在候选实体发现阶段,将
TF
‑
IDF
稀疏表征和基于预训练语言模型的稠密表征相结合来计算提及词和实体的相似性;令提及词
M
与某个实体
E
的稀疏表征分别为和稠密表征分别为和
Step3、
计算稀疏向量表征和的内积以及稠密表征和的内积并对两个内积值进行加和运算,获取第一阶段分数和并将分数从高到低排列获取前
20
个实体及其分数作为候选实体;
Step4、
利用从步骤
Step3
中获得的候选实体构建
prompt
句式并且拼接上下文信息作为
Bert
模型输入;将输入序列送入
bert
模型中达成向量化的目的,并通过自注意力机制,将输入序列的信息融合,经过多轮注意力机制处理后,获得输入序列中
token
最终的向量表示
h
i
∈R
h
;
Step5、
提取向量
h
i
∈R
h
中位置标签
<cls>
处的向量
h
c
∈R
h
,将
h
c
送入到分类器中获取类别概率
p
,并使用交叉熵损失函数训练分类器模型,待完成
prompt
分类器训练,类别概率
p
作为第二阶段的相似性打分
Step6、
将步骤
Step3
中的第一阶段分数和步骤
Step5
中的第二阶段分数进行加权求和,确定最终的排序,根据分值排序的高低确定与提及词
M
相链接的实体
。3.
根据权利要求2所述的基于
prompt
打分的实体链接方法,其特征在于:所述步骤
Step4
中包括如下内容:采用
prompt
的思想将文本中的提及词
M
和实体库中的候选实体
E
结合起来构建提问句式,具体形式为:
prompt:is the mention M similar to theentity E
?然后将提及词
M、
提及词的上下文
context_left、context_right
以及所构建的
prompt
组合为完整的输入序列;使用特殊字符
<cls>
来表示输入序列的开始,特殊字符
<sep>
来表
示序列的分隔,以便将三部分信息拼接在一起;输入序列的形式如下:
input:<cls>context
left
<sep>M<sep>context
right
<sep>prompt。4.
根据权利要求2所述的基于
prompt
打分的实体链接方法,其特征在于:所述步骤
Step4
中还包括如下内...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。