The invention discloses a sequence of Bi LSTM and CRF text annotation system and method based on the system, including learning module and tagging module, tagging module including word segmentation module, corpus annotation module and optimization module, corpus annotation module includes POS tagging module and entity recognition module; the method for data preprocessing, learning model after the pretreatment of the data input preset, adjust the learning model parameters according to the sequence of classification learning and save the output of the model data were added to predicted labels corresponding to the word for the first time, unknown corpus, annotation of unknown data after word segmentation using learning model after adjustment, the unknown initial tagging of corpus on the optimal tuning, after the final corpus annotation; the user can adjust according to the needs of the lexicon, with It has the function of interactive adjustment, realizing automatic annotation in the same field, semi-automatic marking process in different fields, improving efficiency and reducing cost.
【技术实现步骤摘要】
基于Bi-LSTM和CRF的文本序列标注系统及方法
本专利技术涉及信息
,具体的说是基于Bi-LSTM和CRF的文本序列标注系统及方法。
技术介绍
随着互联网、移动互联网以及大数据技术的发展,各种文本数据资源的规模呈现爆炸式增长,主要包括社交媒体(例如微博号、公众号、Facebook、Twitter等)和新闻媒体(例如人民日报、凤凰新闻、搜狐新闻等)网站上的非结构化数据,以及百度百科和维基百科等百科网站上的半结构化数据,自然语言处理(NaturalLanguageProcessing,NLP)在文本信息提取过程中扮演非常重要的角色。文本挖掘过程中,如何在海量文本数据中提取出有用信息,对企业或者用户都是很有价值的。序列标注是一种最基础也是最常用的NLP方法。如何快速有效的预知中文序列中每个词语对应的标签(比如,名词,人名,地名,时间等),对于关系挖掘,知识图谱等重要人工智能任务具有重要作用。目前的中文序列标注在应用中主要存在如下四个问题:第一,中文分词效果不太好,比如人名“王保全”,如果事先没有人名库或者特殊处理(正则化或者其他语法处理),人名就会被分词成“王”和“保全”。这样由于分词都没分出来,后续的标注肯定会出错。第二,当前大多数中文序列标注方法都采取隐马尔科夫模型(HiddenMarkovModel,HMM)或者条件随机场(ConditionalRandomField,CRF)等传统方法,虽然加上合适的词库取得的效果也还可以,但是HMM对序列整体的描述功能较弱,CRF过分依赖于特征的选择。第三,新兴的主流的深度学习方在NLP领域取得了很大的突破, ...
【技术保护点】
基于Bi‑LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi‑LSTM模型和CRF模型,所述Bi‑LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。
【技术特征摘要】
1.基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。2.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述Bi-LSTM模型和CRF模型具体用于:将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。3.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用分词算法进行分词。4.根据权利要求3所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用的分词算法为结巴分词。5.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述语料标注模块...
【专利技术属性】
技术研发人员:金勇,吴兵,朱阳光,李力,
申请(专利权)人:武汉烽火普天信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。