一种基于字词融合的低词汇信息损失中文命名实体识别方法技术

技术编号：38474991 阅读：9 留言：0更新日期：2023-08-15 16:55

中文命名实体识别(CNER)任务是一种自然语言处理技术，旨在识别文本中具有特定类别的实体，如人名、地名、组织机构名等，它是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。由于中文不具备英文这样的天然分词结构，基于词的NER模型识别效果会因分词错误而显著降低，基于字符的NER模型又忽略了词汇信息的作用。因而许多研究尝试将词汇信息融入字符模型中。WC

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字词融合的低词汇信息损失中文命名实体识别方法

：
[0001]随着信息技术的迅速发展，新闻、法律、医疗、媒体等领域的数据呈现爆炸式增长。从海量非结构化数据中提取信息，将其转换为结构化数据，从而获得有价值的信息，已成为研究的热点。命名实体识别(NER)作为信息抽取领域的关键技术之一，旨在从文本中识别出命名实体并将其分类为预定义的类别，例如人名、地名、组织名称、货币名称和专有名词等。命名实体识别不仅是构建知识图谱所必需的技术，而且在信息检索、问答系统和机器翻译等自然语言处理(NLP)的下游应用中扮演着重要的角色，准确地识别实体对于这些下游任务有直接的帮助作用。
[0002]在第六届语义理解会议(MUC
‑
6)上，命名实体识别技术首先被提出，随后研究者们对其进行了大量的研究。早期的NER方法主要运用由语言学专家根据语言知识特性手工构造的规则模板，通过匹配的方式实现命名实体的识别。但是该方法存在规则制定成本高、规则无法移植到其他语料等局限性。因此在其他大型语料中单纯依靠这种方法较难获得良好的识别结果。后来基于特征工程和机器学习的命名实体识别系统成为主流，常用的方法有最大熵、隐马尔可夫模型、支持向量机和条件随机场等。近年来，深度学习在各领域上的成功应用引起了巨大的关注。得益于深度学习本身端到端的特性，无需复杂的特征工程，深度学习的网络框架通用性好，精确度高，在神经网络拓扑结构和训练范式方面效果显著，目前深度学习网络已成为解决命名实体识别任务的最主要模型。

技术介绍
：
[0003]大量的研究工作已...

【技术保护点】

【技术特征摘要】
1.一种基于字词融合的低词汇信息损失中文命名实体识别方法，分为输入嵌入生成、LSTM编码和CRF序列标记三部分，其特征在于：输入嵌入的生成包含以下四个步骤：(1)用户输入一条语句，表示为S＝{c1，c2，...，c
n
}，S表示整个语句，c
i
表示其中的第i个字符，通过查找字符嵌入查找表，获取每个c
i
的嵌入表示具体可表示为：其中t
c
表示一张字符嵌入查找表，它提供了大量单字的向量表示；(2)获取字符c
i
需要融入的词汇，分为三类词汇信息，以c
i
为开头的词汇、以c
i
为结尾的词汇和以c
i
为中间字符的词汇；(3)对于任一词汇其向量表示为：其中t
w
表示一张词嵌入查找表，它提供了大量词的向量表示，不同字符分配到的词汇数量各不相同，表示c
i
融入的词汇数量是为了统一模型输入大小，将一个批次中每个字符的通过padding扩充至最终分配给c
i
的所有词汇的嵌入表示为的所有词汇的嵌入表示为(4)对词汇嵌入选用一种编码策略来提取固定大小的词汇信息，字符嵌入和词汇嵌入级联作为LSTM的输入；LSTM编码包含以下两个步骤：(5)LSTM拥有三种类型的门结构：遗忘门、输入门和输出门，计算输入因子i
j
、输出因子o
j
和遗忘因子f
j
，其内部计算过程如下：，其内部计算过程如下：h
j
＝o
j
·
tanh(c
j
)W
T
是权值，b是偏置向量，σ表示sigmoid激活函数；(6)由于单向LSTM只能利用过去的信息，而双向LSTM可以同时利用过去和未来的信息来进行预测，这样可以提高预测的准确性和鲁棒性，因此模型使用了双向LSTM，其隐藏状态输出h
j
为两层LSTM隐藏状态输出的连接，表示为：CRF序列标记包含以下三个步骤：(7)CRF的输入包括LSTM输出的概率矩阵和特征函数，对于LSTM的输出h
i
，将它投射到线性层进行维度映射，然后使用softmax进行分类，便能得到字符对应于不同标签的分数，令H＝{h1，h2，...，h
n
}：E＝wH+bE＝softmax(E)E则为概率矩阵，特征函数有两个，第一个即为发射分数E
y
，第二个为转移分数T
y
，设某一预测序列为y＝{x1，x2，...x
n
}，}，E
y
为发射分数，表示字符被预测为标签x
i
的分数，T
y
为转移分数，表示标签x
i
的下一个标签为x
j
的分数，概率越高则分数越高，在模型训练之前，可以随机初始化转移矩阵的
分数，这些分数将随着训练的迭代过程被更新；(8)接下来，...

【专利技术属性】
技术研发人员：关东海，郭志强，袁伟伟，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人