【技术实现步骤摘要】
一种基于POS融合特征与实体边界诊断的中文谓词识别方法
[0001]本专利技术属于自然语言处理领域
。
技术介绍
[0002]中文谓词识别是自然语言处理
(NLP)
领域中的一个重要任务,它旨在从中文文本中准确地识别出谓词成分
。
谓词一般是一个句子中的关键动词,是表达主体动作或状态的核心要素
。
由现代语言学的观点,句子的核心语义是一个逻辑命题,而这个命题表示的是一个事件或行为,一般由一个谓词
(predication)
及其论元
(argument)
组成
。
那么,句子的基本骨架可以表示为:论元
—
谓词
—
论元
。
谓词不仅是语义的核心要素,谓词识别还是语义角色标注
、
中文翻译等任务的基础
。
其下游任务效果在极大程度上都依赖谓词识别的准确性,因此一个准确的中文谓词识别模型对于现代汉语以及
NLP
发展有着重大意义< ...
【技术保护点】
【技术特征摘要】
1.
一种基于
POS
融合特征与实体边界诊断的中文谓词识别方法,包括以下步骤:步骤1:设定谓词识别标签表,统一谓词标签分类定义,避免语言学上的歧义;步骤2:一维序列特征地提取,词嵌入特征由
RoBERTa
提取,融合文本上下文信息的表征由
BiLSTM
提取,二者用于共同获取输入文本的特征;
u1,
....
,
u
n
=
RoBERTa_Emb(x1,
x2,
...
,
x
n
)h1,
....
,
h
n
=
BiLSTM(u1,
u2,
...
,
u
n
)
步骤3:基于
SPAN
的表示方式提取序列,该表示方法不仅可以作为命名实体识别的基础系统,还可以作为组合多个
NER
系统输出的元系统,对于输入的句子
X
=
{x1,
x2,
...
,
x
n
}
,枚举所有可能的
m
种跨度序列表
S
=
{s1,
s2,
...
,
s
m
}
,其中
s
i
,
i∈{1
,2,
...m}
为一段跨度的起始位置,对于二元组
s
i
=
{index
start
,
index
end
}
,
index
start
、index
end
分别表示对应词在句子中的起止位置,使用
b
i
和
e
i
表示跨度
s
i
的起始索引和结束索引且1<
b
i
<
e
i
<
n
,那么句子的一个跨度就可以被表示为的形式,将两向量拼接得到一个跨度的最终向量表示如下,其中谓词的长度
(
即一个谓词包含汉字的个数
)
特征为跨度起止编码表示为步骤4:本发明为进一步捕捉
POS
基于
SPAN
的分布规律,引入线性注意力层,对于第
i
个
SPAN
,设
b
i
和
e
i
分别表示词性跨度
s
i
的起始索引和结束索引且1<
b
i
<
e
i
<
n
,再接线性注意力层:其中,
t∈{b
i
,
b
i
+1
,
...
,
e
i
}
表示第
i
个
SPAN
的索引,和和分别是可学习的权...
【专利技术属性】
技术研发人员:贾海涛,陈泓秀,毛有思,任利,黄婧,江雪婷,周焕来,许文波,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。