The invention discloses a Chinese named entity recognition method based on attention mechanism and language model learning. The method includes constructing a word-based dictionary, converting the ID numbers corresponding to each element into vectors, combining through restricted self attention layer, splicing through the first Bi LSTM layer and training language model, splicing through the second Bi LSTM layer. Conditional random field method is combined and used for label prediction training. Data sets are randomly arranged and multi-round training is carried out using Adam optimization method. Neural network is used for Chinese named entity recognition of recognized text data. The invention is based on the characteristics of words only, and does not need to carry out word segmentation and other artificial features such as part of speech and syntax, so as to improve the robustness and robustness of the method; moreover, the invention performs well for unknown words, and has excellent performance, and can improve the performance of downstream tasks very well.
【技术实现步骤摘要】
基于注意力机制和语言模型学习的中文命名实体识别方法
本专利技术属于实体识别
,具体涉及一种基于注意力机制和语言模型学习的中文命名实体识别方法。
技术介绍
中文命名实体识别问题是自然语言处理领域最常见的问题之一,其主要任务是给非结构化的文本中的字或词打上标签,便于提取文本中的有效信息。中文命名体识别任务是对中文文本数据中的实体进行识别,提取文本中的有效信息,具体的,识别的对象是中文文本数据,如一句话或一段文章;识别的要求是标记出这段文字中的实体名称,如人名、地名、机构名、称谓等等。目前进行中文命名实体识别的方法主要分为三类:1.基于规则的无监督方法:主要是根据待识别的命名实体在语言学上的表现形式,人为设置一些规则去匹配句子的句法结构,标记处命名实体。基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。这类方法的效果很大程度上依赖于设定规则的语言学专家的水平,而且对于不同的领域需要设置不同的规则去适应,所以比较 ...
【技术保护点】
1.一种基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,包括以下步骤:A、获取已标注标签的中文命名实体识别的数据集,构建基于字的字典;B、对步骤A构建的基于字的字典中每个元素对应的ID号进行向量转换处理;C、将步骤B转换后的字向量通过restricted Self‑attention层进行组合,获取每个中心字在附近窗口范围内与其他字向量的加权组合的字向量,挖掘中心字在附近窗口范围内的潜在的词信息;D、将步骤C获取的字向量通过第一层Bi‑LSTM进行处理,得到两个方向的每个时间步的隐藏层输出,将得到的输出进行拼接组合,并利用每个时间步的隐藏层输出训练语言模型; ...
【技术特征摘要】
1.一种基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,包括以下步骤:A、获取已标注标签的中文命名实体识别的数据集,构建基于字的字典;B、对步骤A构建的基于字的字典中每个元素对应的ID号进行向量转换处理;C、将步骤B转换后的字向量通过restrictedSelf-attention层进行组合,获取每个中心字在附近窗口范围内与其他字向量的加权组合的字向量,挖掘中心字在附近窗口范围内的潜在的词信息;D、将步骤C获取的字向量通过第一层Bi-LSTM进行处理,得到两个方向的每个时间步的隐藏层输出,将得到的输出进行拼接组合,并利用每个时间步的隐藏层输出训练语言模型;E、将步骤D得到的拼接结果通过第二层Bi-LSTM进行处理,得到二次拼接组合的输出,并采用条件随机场方法进行标签预测训练;F、将已标注标签的中文命名实体识别的数据集进行随机排列处理,并采用Adam优化方法循环步骤A-E对神经网络进行多轮训练;G、利用神经网络对待识别的文本数据进行处理,完成中文命名实体识别。2.如权利要求1所述的基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,所述步骤A获取已标注标签的中文命名实体识别的数据集,构建基于字的字典,具体为对已标注标签的中文命名实体识别的数据集中的每一个字和符号分配一个ID号,并在句子的开头和结尾分别添加标识。3.如权利要求2所述的基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,所述步骤A还包括构建标签序列;所述标签序列包括正向语言模型标签、反向语言模型标签和每个字对应命名体类别的标签。4.如权利要求3所述的基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,所述步骤C将步骤B转换后的字向量通过restrictedSelf-attention层进行组合,获取每个中心字在附近窗口范围内与其他字向量的加权组合的字向量,挖掘中心字在附近窗口范围内的潜在的词信息,具体为设定窗口大小,将中心字的窗口大小区域内的每个字与中心字进行相关性比较,计算每个字与中心字的相关性值;然后根据区域内每个字和中心字的相关性进行加权组合,计算中心字向量,获取由字组合成的潜在词信息。5.如权利要求4所述的基于注意力机制和语言模型学习的中文命名实体识别方法,其特征在于,所述计算每个字与中心字的相关性值的公式为具体为f(xi,q)=ωTσ(W(1)xi+W(2)q)其中,q表示中心字,xi表示中心字附近window-size窗口大小的第i个字,W(1)表示xi需...
【专利技术属性】
技术研发人员:廖伟智,马攀,王宇,阴艳超,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。