一种基于制造技术

技术编号：39813166 阅读：20 留言：0更新日期：2023-12-22 19:30

本发明专利技术针对传统方法对于中文谓词边界易错判，词类活用性谓词识别精度低导致下游任务存在错误积累的问题，提出一种基于

全部详细技术资料下载

【技术实现步骤摘要】
一种基于POS融合特征与实体边界诊断的中文谓词识别方法

[0001]本专利技术属于自然语言处理领域
。

技术介绍

[0002]中文谓词识别是自然语言处理
(NLP)
领域中的一个重要任务，它旨在从中文文本中准确地识别出谓词成分
。
谓词一般是一个句子中的关键动词，是表达主体动作或状态的核心要素
。
由现代语言学的观点，句子的核心语义是一个逻辑命题，而这个命题表示的是一个事件或行为，一般由一个谓词
(predication)
及其论元
(argument)
组成
。
那么，句子的基本骨架可以表示为：论元
—
谓词
—
论元
。
谓词不仅是语义的核心要素，谓词识别还是语义角色标注
、
中文翻译等任务的基础
。
其下游任务效果在极大程度上都依赖谓词识别的准确性，因此一个准确的中文谓词识别模型对于现代汉语以及
NLP
发展有着重大意义<br/>。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
POS
融合特征与实体边界诊断的中文谓词识别方法，包括以下步骤：步骤1：设定谓词识别标签表，统一谓词标签分类定义，避免语言学上的歧义；步骤2：一维序列特征地提取，词嵌入特征由
RoBERTa
提取，融合文本上下文信息的表征由
BiLSTM
提取，二者用于共同获取输入文本的特征；
u1，
....
，
u
n
＝
RoBERTa_Emb(x1，
x2，
...
，
x
n
)h1，
....
，
h
n
＝
BiLSTM(u1，
u2，
...
，
u
n
)
步骤3：基于
SPAN
的表示方式提取序列，该表示方法不仅可以作为命名实体识别的基础系统，还可以作为组合多个
NER
系统输出的元系统，对于输入的句子
X
＝
{x1，
x2，
...
，
x
n
}
，枚举所有可能的
m
种跨度序列表
S
＝
{s1，
s2，
...
，
s
m
}
，其中
s
i
，
i∈{1
，2，
...m}
为一段跨度的起始位置，对于二元组
s
i
＝
{index
start
，
index
end
}
，
index
start
、index
end
分别表示对应词在句子中的起止位置，使用
b
i
和
e
i
表示跨度
s
i
的起始索引和结束索引且1＜
b
i
＜
e
i
＜
n
，那么句子的一个跨度就可以被表示为的形式，将两向量拼接得到一个跨度的最终向量表示如下，其中谓词的长度
(
即一个谓词包含汉字的个数
)
特征为跨度起止编码表示为步骤4：本发明为进一步捕捉
POS
基于
SPAN
的分布规律，引入线性注意力层，对于第
i
个
SPAN
，设
b
i
和
e
i
分别表示词性跨度
s
i
的起始索引和结束索引且1＜
b
i
＜
e
i
＜
n
，再接线性注意力层：其中，
t∈{b
i
，
b
i
+1
，
...
，
e
i
}
表示第
i
个
SPAN
的索引，和和分别是可学习的权...

【专利技术属性】
技术研发人员：贾海涛，陈泓秀，毛有思，任利，黄婧，江雪婷，周焕来，许文波，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人