一种基于制造技术

技术编号:39813166 阅读:20 留言:0更新日期:2023-12-22 19:30
本发明专利技术针对传统方法对于中文谓词边界易错判,词类活用性谓词识别精度低导致下游任务存在错误积累的问题,提出一种基于

【技术实现步骤摘要】
一种基于POS融合特征与实体边界诊断的中文谓词识别方法


[0001]本专利技术属于自然语言处理领域


技术介绍

[0002]中文谓词识别是自然语言处理
(NLP)
领域中的一个重要任务,它旨在从中文文本中准确地识别出谓词成分

谓词一般是一个句子中的关键动词,是表达主体动作或状态的核心要素

由现代语言学的观点,句子的核心语义是一个逻辑命题,而这个命题表示的是一个事件或行为,一般由一个谓词
(predication)
及其论元
(argument)
组成

那么,句子的基本骨架可以表示为:论元

谓词

论元

谓词不仅是语义的核心要素,谓词识别还是语义角色标注

中文翻译等任务的基础

其下游任务效果在极大程度上都依赖谓词识别的准确性,因此一个准确的中文谓词识别模型对于现代汉语以及
NLP
发展有着重大意义<br/>。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
POS
融合特征与实体边界诊断的中文谓词识别方法,包括以下步骤:步骤1:设定谓词识别标签表,统一谓词标签分类定义,避免语言学上的歧义;步骤2:一维序列特征地提取,词嵌入特征由
RoBERTa
提取,融合文本上下文信息的表征由
BiLSTM
提取,二者用于共同获取输入文本的特征;
u1,
....

u
n

RoBERTa_Emb(x1,
x2,
...

x
n
)h1,
....

h
n

BiLSTM(u1,
u2,
...

u
n
)
步骤3:基于
SPAN
的表示方式提取序列,该表示方法不仅可以作为命名实体识别的基础系统,还可以作为组合多个
NER
系统输出的元系统,对于输入的句子
X

{x1,
x2,
...

x
n
}
,枚举所有可能的
m
种跨度序列表
S

{s1,
s2,
...

s
m
}
,其中
s
i

i∈{1
,2,
...m}
为一段跨度的起始位置,对于二元组
s
i

{index
start

index
end
}

index
start
、index
end
分别表示对应词在句子中的起止位置,使用
b
i

e
i
表示跨度
s
i
的起始索引和结束索引且1<
b
i

e
i

n
,那么句子的一个跨度就可以被表示为的形式,将两向量拼接得到一个跨度的最终向量表示如下,其中谓词的长度
(
即一个谓词包含汉字的个数
)
特征为跨度起止编码表示为步骤4:本发明为进一步捕捉
POS
基于
SPAN
的分布规律,引入线性注意力层,对于第
i

SPAN
,设
b
i

e
i
分别表示词性跨度
s
i
的起始索引和结束索引且1<
b
i

e
i

n
,再接线性注意力层:其中,
t∈{b
i

b
i
+1

...

e
i
}
表示第
i

SPAN
的索引,和和分别是可学习的权...

【专利技术属性】
技术研发人员:贾海涛陈泓秀毛有思任利黄婧江雪婷周焕来许文波
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1