【技术实现步骤摘要】
基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
本专利技术属于自然语言处理领域,尤其涉及一种基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质。
技术介绍
随着信息社会的到来,中文文本信息越来越多,需要进行自然语言处理的中文文本数量也急剧增加。中现有技术中,使用循环神经网络(RecurrentNeuralNetwork,RNN)从大量文本中学习字的特征,并结合CRF、SVM对具有不同特征的字进行分类,进而确定哪些字是命名实体,哪些不是命名实体。现有技术由于采用简单原始的RNN,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征表示不准确,使用人力去查找并定位命名实体不仅效率低,而且准确性差。由此可知,现有技术中,中文命名实体识别的准确率比较低。
技术实现思路
本专利技术实施例提供一种基于BiLSTM网络模型及CRF模型的实体识别方法,旨在解决现有技术中由于采用简单原始的RNN,不能提取出字的长距离上下文中的隐含信息,导致学习到的特征 ...
【技术保护点】
1.一种基于BiLSTM网络模型及CRF模型的实体识别方法,其特征在于,所述基于BiLSTM网络模型及CRF模型的实体识别方法包括:/n设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型,并对所述命名实体识别模型进行训练,得到训练后的命名实体识别模型;/n基于预先获取的词典与字典,将待识别的文本转换成索引文本;/n通过所述训练后的命名实体识别模型接收所述索引文本,并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引;/n从预先获取的实体标签列表中获取与所述实体标签索 ...
【技术特征摘要】
1.一种基于BiLSTM网络模型及CRF模型的实体识别方法,其特征在于,所述基于BiLSTM网络模型及CRF模型的实体识别方法包括:
设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型,并对所述命名实体识别模型进行训练,得到训练后的命名实体识别模型;
基于预先获取的词典与字典,将待识别的文本转换成索引文本;
通过所述训练后的命名实体识别模型接收所述索引文本,并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引;
从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签,基于所述实体标签生成中文命名实体的识别结果。
2.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法,其特征在于,所述对所述命名实体识别模型进行训练,得到训练后的命名实体识别模型,包括以下过程:
构造N份训练数据,所述训练数据包括索引文本、与索引文本一一对应的标签索引,其中,索引文本与标签索引之间间隔排列;
通过所述命名实体识别模型接收训练数据,训练迭代N次,设置学习率设为M,每L次在验证集上做一次实验,计算准确率,当计算得到的准确率达到预设要求时,终止训练,得到训练后的命名实体识别模型。
3.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法,其特征在于,所述基于预先获取的词典与字典,将待识别的文本转换成索引文本,包括以下过程:
对所待识别的文本进行分词处理,得到字及分词,从所述字典中获取对应的字索引文本,从所述词典中获取对应的词索引文本,所述索引文本包括所述字索引文本及所述词索引文本。
4.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法,其特征在于,所述从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签,基于所述实体标签生成中文命名实体的识别结果之后,所述基于BiLSTM网络模型及CRF模型的实体识别方法还包括以下步骤:
根据所述中文命名实体的识别结果从所述待识别文本抽取命名实体,并生成结构化实体表格。
5.一种基于BiLSTM网络模型及CRF模型的实体识别装置,其特征在于,所述基于BiLSTM网络模型及CRF模型的实体识别装...
【专利技术属性】
技术研发人员:周忠诚,段炼,黄九鸣,张圣栋,
申请(专利权)人:湖南星汉数智科技有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。