基于Bi‑LSTM和CRF的文本序列标注系统及方法技术方案

技术编号:17109851 阅读:25 留言:0更新日期:2018-01-24 22:29
本发明专利技术公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明专利技术使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。

The sequence of Bi LSTM and CRF text annotation system and method based on

The invention discloses a sequence of Bi LSTM and CRF text annotation system and method based on the system, including learning module and tagging module, tagging module including word segmentation module, corpus annotation module and optimization module, corpus annotation module includes POS tagging module and entity recognition module; the method for data preprocessing, learning model after the pretreatment of the data input preset, adjust the learning model parameters according to the sequence of classification learning and save the output of the model data were added to predicted labels corresponding to the word for the first time, unknown corpus, annotation of unknown data after word segmentation using learning model after adjustment, the unknown initial tagging of corpus on the optimal tuning, after the final corpus annotation; the user can adjust according to the needs of the lexicon, with It has the function of interactive adjustment, realizing automatic annotation in the same field, semi-automatic marking process in different fields, improving efficiency and reducing cost.

【技术实现步骤摘要】
基于Bi-LSTM和CRF的文本序列标注系统及方法
本专利技术涉及信息
,具体的说是基于Bi-LSTM和CRF的文本序列标注系统及方法。
技术介绍
随着互联网、移动互联网以及大数据技术的发展,各种文本数据资源的规模呈现爆炸式增长,主要包括社交媒体(例如微博号、公众号、Facebook、Twitter等)和新闻媒体(例如人民日报、凤凰新闻、搜狐新闻等)网站上的非结构化数据,以及百度百科和维基百科等百科网站上的半结构化数据,自然语言处理(NaturalLanguageProcessing,NLP)在文本信息提取过程中扮演非常重要的角色。文本挖掘过程中,如何在海量文本数据中提取出有用信息,对企业或者用户都是很有价值的。序列标注是一种最基础也是最常用的NLP方法。如何快速有效的预知中文序列中每个词语对应的标签(比如,名词,人名,地名,时间等),对于关系挖掘,知识图谱等重要人工智能任务具有重要作用。目前的中文序列标注在应用中主要存在如下四个问题:第一,中文分词效果不太好,比如人名“王保全”,如果事先没有人名库或者特殊处理(正则化或者其他语法处理),人名就会被分词成“王”和“保全”。这样由于分词都没分出来,后续的标注肯定会出错。第二,当前大多数中文序列标注方法都采取隐马尔科夫模型(HiddenMarkovModel,HMM)或者条件随机场(ConditionalRandomField,CRF)等传统方法,虽然加上合适的词库取得的效果也还可以,但是HMM对序列整体的描述功能较弱,CRF过分依赖于特征的选择。第三,新兴的主流的深度学习方在NLP领域取得了很大的突破,尤其是循环神经网络(RecurrentNeuralNetwork,RNN)在NLP领域取得了优良表现。在英文序列标注方面已经有很多关于RNN用于NLP的成功案例,而在中文序列标注方面的案例却不太多。第四,针对不同的业务,当涉及到不同领域时,需要重新人工标注一份语料进行模型训练,由于模型对于训练语料的要求特别高,需要大量的准确标注的语料数据,这样会花费大量的人力物力。基于此,针对上述现状中存在的问题,本专利技术提出了一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。
技术实现思路
为了解决上述现有技术的问题,本专利技术提供一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。本专利技术解决其技术问题所采用的技术方案是:基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。进一步地,所述Bi-LSTM模型和CRF模型具体用于:将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。进一步地,所述分词模块利用分词算法进行分词。更进一步地,所述分词模块利用的分词算法为结巴分词。进一步地,所述语料标注模块具体用于:判断分词模块分发的语料的标签是否与语料标注模块所对应的标注结果相匹配;当判断为是时,对分词模块分发的语料进行标注;当判断为否时,通过调优模块将分错的语料添加到分词模块中进行调优。更进一步地,所述语料标注模块还具体用于:将标注的语料添加到分词模块中以及通过调优模块对语料进行正则化处理。基于Bi-LSTM和CRF的文本序列标注方法,包括以下步骤:步骤1、将获取的语料进行预处理;步骤2、将步骤1中预处理后的语料输入预设的学习模型,调整学习模型的参数并保存;步骤3、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,对于未知语料,利用分词算法进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注;步骤4、将步骤3中初次标注的未知语料进行调优,对调优后的语料进行最终标注。进一步地,所述步骤1中的预处理包括合并大粒度分词和统一格式。进一步地,所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。进一步地,所述步骤4中的调优具体为:a、对于分词没有结果的语料,在分词算法中加入词库强制分词;b、对于训练语料中没有出现的语料,通过加入词库或者正则化处理方法进行调优。与现有技术相比,本专利技术的有益效果是:本专利技术使用户可以根据自己的需求对相应的词库进行调整,具有人机交互调整的功能,实现了同一领域自动标注,不同领域半自动标注过程,大大提升了中文自然语言处理在序列标注领域的效率,降低了人力标注成本,同时也可以将此系统及方法用于多个行业的文本信息提取。附图说明图1为本专利技术的系统流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术所述的基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块1和标注模块2,所述学习模块1,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块2包括分词模块201、语料标注模块203和调优模块202,所述语料标注模块203包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果,所述词性标注模块包括名词、形容词、动词、地点、标点、连词、副词、介词等的标注,所述实体识别模块包括人名、地名、机构名、时间等的标注;其中,所述学习模型1包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块201,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块203,用于对分词模块分发的语料进行标注;所述调优模块202,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。在上述技术方案中,基于Bi-LSTM模型、CRF模型以及词库积累的中文序列标注系统。长短记忆神经网络(LSTM)是一种常见的RNN模型,具有优良的模型训练效果和对序列的长远记忆功能,因为LSTM有门本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710828497.html" title="基于Bi‑LSTM和CRF的文本序列标注系统及方法原文来自X技术">基于Bi‑LSTM和CRF的文本序列标注系统及方法</a>

【技术保护点】
基于Bi‑LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi‑LSTM模型和CRF模型,所述Bi‑LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。

【技术特征摘要】
1.基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。2.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述Bi-LSTM模型和CRF模型具体用于:将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。3.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用分词算法进行分词。4.根据权利要求3所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用的分词算法为结巴分词。5.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述语料标注模块...

【专利技术属性】
技术研发人员:金勇吴兵朱阳光李力
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1