【技术实现步骤摘要】
一种基于边界检测的中文命名实体识别方法
[0001].本专利技术属于自然语言处理
,具体涉及一种基于边界检测的中文命名实体识别方法。
技术介绍
[0002].在这个大数据时代,很多结构化数据被用于统计分析。现代科技发展迅速,各种社交软件应运而生,网上的文字信息越发丰富,如何在利用好海量的文字信息变得越来越迫切。命名实体识别是从非结构化文本中提取出结构化信息的重要技术。目前在命名实体识别领域主流的研究对象是英语,但是近些年对中文的研究越来越受到重视。
[0003].相较于英文命名实体识别,中文命名实体识别研究难度更大。在英文文本中,单词作为阅读的基本单位是以空格作为划分。而在中文文本中,语句由汉字紧密排列组成,汉字是中文阅读的基本单位,人在阅读过程中会主动对语句进行分词。相较于英文的词粒度嵌入向量,中文的词粒度向量需要进行分词任务,分词产生的错误会导致命名实体识别错误,不同的分词方法会改变文本语义表达并且存在未登录词的问题。在中文中采取字粒度嵌入向量虽然能避免分词问题,但是字粒度的嵌入向量蕴含的信息不够丰富,如中 ...
【技术保护点】
【技术特征摘要】
1.一种基于边界检测的中文命名实体识别方法,其特征在于,包括如下步骤:步骤1:对目标文本处理和多粒度表示,其基本步骤如下:步骤1.1:将所述目标文本根据标点符号进行切分,得到句粒度文本;步骤1.2:对处理后的句粒度文本进行字粒度嵌入向量表示,得到字粒度嵌入向量步骤1.3:同时对句粒度文本进行分词,对分词结果进行词粒度嵌入向量表示,得到词粒度嵌入向量步骤1.4:将所述的字粒度嵌入向量和词粒度嵌入向量进行融合得到多粒度嵌入向量e
i
;步骤2:将多粒度嵌入表示e
i
输入BiGRU,得到第i位置的上下文信息h
i
。其中,BiGRU是由前向GRU和后向GRU组成,即第i位置的上下文隐藏信息h
i
由前向GRU和后向GRU的输出拼接而成。步骤3:利用神经网络对每个时刻的上下文信息h
i
进行解码,判断h
i
所代表的位置i是否为实体的开始位置或者结束位置,其基本步骤如下:步骤3.1:神经网络指的是多层感知机和Sigmoid激活函数,对每一个位置上的隐藏信息h
i
进行解码指的是利用多层感知机提取隐藏信息h
i
的边界信息;步骤3.2:Sigmoid输出最后的结果,即该位置是实体的开始位置或结束位置的可能性,用P
iB
和P
iE
这两种标签值分别表示;步骤3.3:使用log似然函数作为训练开始位置和结束位置这两种标签的损失函数,用表示开始位置的损失函数...
【专利技术属性】
技术研发人员:朱广丽,王腾科,张顺香,刘云朵,谈光璞,韦斯羽,张玉莹,张友强,王星光,马子晨,李瀚臣,高茂娇,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。